論文の概要: Far Out: Evaluating Language Models on Slang in Australian and Indian English
- arxiv url: http://arxiv.org/abs/2602.15373v2
- Date: Wed, 18 Feb 2026 02:11:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 13:51:30.981593
- Title: Far Out: Evaluating Language Models on Slang in Australian and Indian English
- Title(参考訳): オーストラリア英語とインド英語のスラングにおける言語モデルの評価
- Authors: Deniz Kaya Dilsiz, Dipankar Srirag, Aditya Joshi,
- Abstract要約: 言語モデルは、非標準言語変種でテキストを処理する際に、体系的なパフォーマンスギャップを示す。
インド英語(en-IN)とオーストラリア英語(en-AU)のスラング認識を、7つの最先端言語モデルで総合的に評価する。
- 参考スコア(独自算出の注目度): 7.858383859663038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models exhibit systematic performance gaps when processing text in non-standard language varieties, yet their ability to comprehend variety-specific slang remains underexplored for several languages. We present a comprehensive evaluation of slang awareness in Indian English (en-IN) and Australian English (en-AU) across seven state-of-the-art language models. We construct two complementary datasets: WEB, containing 377 web-sourced usage examples from Urban Dictionary, and GEN, featuring 1,492 synthetically generated usages of these slang terms, across diverse scenarios. We assess language models on three tasks: target word prediction (TWP), guided target word prediction (TWP$^*$) and target word selection (TWS). Our results reveal four key findings: (1) Higher average model performance TWS versus TWP and TWP$^*$, with average accuracy score increasing from 0.03 to 0.49 respectively (2) Stronger average model performance on WEB versus GEN datasets, with average similarity score increasing by 0.03 and 0.05 across TWP and TWP$^*$ tasks respectively (3) en-IN tasks outperform en-AU when averaged across all models and datasets, with TWS demonstrating the largest disparity, increasing average accuracy from 0.44 to 0.54. These findings underscore fundamental asymmetries between generative and discriminative competencies for variety-specific language, particularly in the context of slang expressions despite being in a technologically rich language such as English.
- Abstract(参考訳): 言語モデルは、非標準言語変種でテキストを処理する際に、体系的なパフォーマンスのギャップを示すが、多種多様なスラングを理解する能力は、いくつかの言語では未熟である。
インド英語(en-IN)とオーストラリア英語(en-AU)のスラング認識を、7つの最先端言語モデルで総合的に評価する。
我々は2つの補完的データセットを構築した: WEB、Urban Dictionaryによる377のWebソース利用例、GEN、およびこれらのスラング語を合成的に生成した1,492のユースケースを多種多様なシナリオで特徴付ける。
目的語予測(TWP)、目標語予測(TWP$^*$)、目標語選択(TWS)の3つのタスクで言語モデルを評価する。
1)平均モデル性能TWS vs TWP と TWP$^*$ は平均精度が 0.03 から 0.49 に向上し,(2) WEB と GEN データセットの平均モデル性能は 0.03 と 0.05 に向上し,TWP と TWP$^*$ タスク間で平均類似性は 0.03 と 0.05 に向上した。
これらの知見は、特にスラング表現の文脈において、英語のような技術的に豊かな言語であるにもかかわらず、多種多様言語における生成的能力と差別的能力の基本的な非対称性を裏付けるものである。
関連論文リスト
- Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought [23.847410628315544]
英語とターゲット言語を切り替える推論スキーマである**Language-Mixed CoT**を紹介する。
我々は6つのファミリー(Qwen2.5、Llama-3.1、Gemma-3など)でNinveモデル(4B-35B)を訓練する。
我々のベストモデル**KO-REAson-35B*は、平均スコア(64.0 pm 25)で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-10-05T14:39:41Z) - A Comparative Evaluation of Large Language Models for Persian Sentiment Analysis and Emotion Detection in Social Media Texts [2.820011731460364]
本研究では,ペルシャ語のソーシャルメディアテキストにおける感情分析と感情検出のための4つの大規模言語モデル(LLM)の比較評価を行った。
その結果、全てのモデルの性能が許容できるレベルに達しており、最良の3つのモデルの統計的比較では、それらの間に有意な差は見られなかった。
その結果、感情検出タスクは感情分析タスクと比較して全てのモデルにおいて困難であり、誤分類パターンはペルシア語のテキストにおけるいくつかの課題を表わす可能性があることが示唆された。
論文 参考訳(メタデータ) (2025-09-18T12:59:07Z) - Adapting Language Models to Indonesian Local Languages: An Empirical Study of Language Transferability on Zero-Shot Settings [1.1556013985948772]
インドネシアの低リソース言語への事前学習言語モデルの転送性を評価する。
私たちはターゲット言語を、見る、見る、見る、見る、見えない3つのカテゴリに分類します。
マルチ言語モデルは、目に見える言語で、部分的に見られる言語では適度に、目に見えない言語では劣る。
対象言語にラベル付きデータを必要としないため,MAD-Xは性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-07-02T12:17:55Z) - BESSTIE: A Benchmark for Sentiment and Sarcasm Classification for Varieties of English [8.823927892310238]
BESSTIEは、オーストラリア(en-AU)、インド(en-IN)、イギリス(en-UK)の3種類の英語に対する感情と皮肉の分類のベンチマークである。
Google PlacesレビューのロケーションベースとRedditコメントのトピックベースフィルタリングの2つの方法を用いて,これらの言語品種のデータセットを収集した。
言語変異のネイティブ話者は、感情ラベルと皮肉ラベルでデータセットを手動で注釈付けする。
論文 参考訳(メタデータ) (2024-12-06T02:34:40Z) - A Text-to-Text Model for Multilingual Offensive Language Identification [19.23565690468299]
本研究では,テキスト・トゥ・テキスト・トランスフォーマを用いた攻撃的言語識別のためのエンコーダ・デコーダアーキテクチャを用いた最初の事前学習モデルを提案する(T5)。
我々の事前学習されたT5モデルは、複数の英語ベンチマークにおいて、fBERTやHateBERTのような攻撃的言語検出のために微調整された他のトランスフォーマーベースモデルよりも優れている。
同様のアプローチで、mT5を用いて攻撃的言語識別のための最初の多言語事前訓練モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-06T09:37:27Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。