論文の概要: Robust Native Language Identification through Agentic Decomposition
- arxiv url: http://arxiv.org/abs/2509.16666v1
- Date: Sat, 20 Sep 2025 12:38:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.915054
- Title: Robust Native Language Identification through Agentic Decomposition
- Title(参考訳): エージェント分解によるロバストなネイティブ言語同定
- Authors: Ahmet Yavuz Uluslu, Tannon Kew, Tilia Ellendorff, Gerold Schneider, Rico Sennrich,
- Abstract要約: 大規模言語モデル(LLM)は、表面的な文脈的手がかりを利用することで、ネイティブ言語識別(NLI)ベンチマークで高いパフォーマンスを達成することが多い。
このような戦略は信頼できないことを示し、モデル予測は誤解を招くヒントによって容易に変更可能であることを示す。
専門エージェントが多種多様な言語的証拠を蓄積・分類する,法医学的言語学にヒントを得たエージェントNLIパイプラインを導入する。
- 参考スコア(独自算出の注目度): 23.899157231471104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) often achieve high performance in native language identification (NLI) benchmarks by leveraging superficial contextual clues such as names, locations, and cultural stereotypes, rather than the underlying linguistic patterns indicative of native language (L1) influence. To improve robustness, previous work has instructed LLMs to disregard such clues. In this work, we demonstrate that such a strategy is unreliable and model predictions can be easily altered by misleading hints. To address this problem, we introduce an agentic NLI pipeline inspired by forensic linguistics, where specialized agents accumulate and categorize diverse linguistic evidence before an independent final overall assessment. In this final assessment, a goal-aware coordinating agent synthesizes all evidence to make the NLI prediction. On two benchmark datasets, our approach significantly enhances NLI robustness against misleading contextual clues and performance consistency compared to standard prompting methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、言語(L1)の影響を示唆する基礎となる言語パターンではなく、名前、場所、文化的ステレオタイプといった表面的な文脈的手がかりを活用することで、ネイティブ言語識別(NLI)ベンチマークで高いパフォーマンスを達成することが多い。
堅牢性を改善するため、従来の研究はLSMにそのような手がかりを無視するように指示した。
本研究では,そのような戦略が信頼できないことを示し,モデル予測を誤解を招くヒントによって容易に変更できることを実証する。
この問題に対処するため,法医学的言語学にインスパイアされたエージェントNLIパイプラインを導入し,個々のエージェントが独立した最終的総合評価の前に多様な言語的証拠を蓄積・分類する。
この最終評価では、ゴール認識調整エージェントがすべての証拠を合成し、NLI予測を行う。
2つのベンチマークデータセットにおいて,提案手法は標準的なプロンプト手法と比較して,誤解を招く文脈的手がかりや性能の整合性に対して,NLIのロバスト性を大幅に向上させる。
関連論文リスト
- Language Surgery in Multilingual Large Language Models [32.77326546076424]
大規模言語モデル(LLM)はタスクや言語にまたがる顕著な一般化機能を示している。
本稿では, LLMにおける自然に出現する表現アライメント, 特に中層における表現アライメントについて検討する。
本稿では,言語間言語制御の高精度化と言語混乱を軽減するため,ITLC(Inference-Time Language Control)を提案する。
論文 参考訳(メタデータ) (2025-06-14T11:09:50Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Exploring Robustness of LLMs to Paraphrasing Based on Sociodemographic Factors [7.312170216336085]
我々は、SocialIQAデータセットを拡張して、社会デマログラフィー要因に基づく多様なパラフレーズセットを作成する。
人口統計に基づく言い回しが言語モデルの性能に大きな影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2025-01-14T17:50:06Z) - On the Robustness of Language Guidance for Low-Level Vision Tasks: Findings from Depth Estimation [71.72465617754553]
対象中心の3次元空間関係を伝達する低レベルな文を生成し,これらを追加言語として組み込んで,深度推定における下流の影響を評価する。
我々の重要な発見は、現在の言語誘導深度推定器がシーンレベルの記述のみを最適に実行することである。
追加データを活用するにもかかわらず、これらの手法は敵の直接攻撃や分散シフトの増加に伴う性能低下に対して堅牢ではない。
論文 参考訳(メタデータ) (2024-04-12T15:35:20Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。