論文の概要: Lost in Interpretation: The Plausibility-Faithfulness Trade-off in Cross-Lingual Explanations
- arxiv url: http://arxiv.org/abs/2605.19274v1
- Date: Tue, 19 May 2026 02:44:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.082523
- Title: Lost in Interpretation: The Plausibility-Faithfulness Trade-off in Cross-Lingual Explanations
- Title(参考訳): 解釈における損失--言語間説明における可塑性-不完全性トレードオフ-
- Authors: Somnath Banerjee, Pranav Jha, Rima Hazra, Animesh Mukherjee,
- Abstract要約: 英語の説明は、しばしば流動的であるが、緩やかに固定された理性を生み出す。
社会的にニュアンスのある分類では、英語のピボットは実践的な手がかりを保存できない。
- 参考スコア(独自算出の注目度): 7.934534873467547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs deployed multilingually are often audited via English explanations for non-English inputs. We evaluate extractive explanations ''where the model identifies input token spans as evidence alongside a generated rationale'' and uncover a systematic trade-off: English-pivot explanations can achieve higher span agreement with human rationales while their evidence becomes less causally grounded in the model's prediction, as measured by both comprehensiveness and sufficiency. Across 3 tasks, 5~languages, and 2~multilingual LLM families, we find that English explanations frequently produce fluent but loosely anchored rationales, with comprehensiveness degrading by up to 5.7x relative to native-language conditions - even as task accuracy remains stable across settings. For socially nuanced classification, English pivots also fail to preserve pragmatic cues, reducing both faithfulness and span agreement. We recommend auditing explanations in the input language, reporting multi-faceted faithfulness metrics beyond lexical overlap, and treating English rationales as communication summaries rather than faithful decision traces.
- Abstract(参考訳): 複数言語で展開されるLLMは、英語以外の入力に対する説明を通じて監査されることが多い。
我々は,「モデルが入力トークンを有意な証拠として識別する場所」を抽出的説明として評価し,体系的なトレードオフを明らかにする。
3つのタスク、5つの言語、および2つの多言語LLMファミリーにおいて、英語の説明はしばしば流動的だがゆるやかに固定された有理数を生み出し、その包括性はネイティブ言語条件と比較して最大5.7倍も低下する。
社会的にニュアンスな分類では、英語のピボットは実践的な手がかりを保たず、忠実さとスパン協定の両方を減らした。
我々は、入力言語における説明の監査、語彙重なり以上の多面的忠実度指標の報告、英語の有理を忠実な決定トレースではなくコミュニケーション要約として扱うことを推奨する。
関連論文リスト
- Plausibility as Commonsense Reasoning: Humans Succeed, Large Language Models Do not [0.0]
あいまいさ解消の過程で,大規模言語モデルが世界知識と統語的構造を人間的,構造に敏感な方法で統合するかどうかを検証した。
我々は、構文構成を固定し、両方の構文解析が実用的に可能であることを保証する曖昧な項目を構築する。
高速な強制選択理解実験では、人間は大きな、正確に指示された可視性効果を示す。
モデル全体では、可視性駆動のシフトは弱く、不安定で、逆転している。
論文 参考訳(メタデータ) (2026-04-06T16:27:06Z) - When Meanings Meet: Investigating the Emergence and Quality of Shared Concept Spaces during Multilingual Language Model Training [57.230355403478995]
本研究では,EuroLLMの事前学習における言語に依存しない概念空間の開発について検討する。
共有概念空間は早期に出現し、洗練され続けていますが、それらとの整合性は言語に依存しています。
従来の作業とは対照的に、細かな手作業分析により、翻訳品質の顕著な向上は、行動の変化を反映していることが判明した。
論文 参考訳(メタデータ) (2026-01-30T11:23:01Z) - Align to the Pivot: Dual Alignment with Self-Feedback for Multilingual Math Reasoning [71.4175109189942]
Pivot-Aligned Self-Feedback Multilingual Reasoning (PASMR)を提案する。
このアプローチは、モデルの第一言語をピボット言語として指定する。
外部の正しい回答や報酬モデルに頼ることなく、言語横断的な自己フィードバック機構を確立する。
論文 参考訳(メタデータ) (2026-01-25T03:20:00Z) - Large Reasoning Models Are (Not Yet) Multilingual Latent Reasoners [48.68444770923683]
大きな推論モデル(LRM)は、数学的推論タスクにおいて高い性能を達成する。
LRMは、これらのテキスト推論ステップを完了する前に、正しい答えに到達することが多い。
この現象は英語で研究されてきたが、多言語的行動はほとんど分かっていない。
論文 参考訳(メタデータ) (2026-01-06T13:20:17Z) - Beg to Differ: Understanding Reasoning-Answer Misalignment Across Languages [43.36259715282423]
我々はGlobalMMLUの6つの言語と6つのフロンティアモデルにおける65kの推論トレースを分析した。
非ラテン文字における推論の痕跡は、少なくともラテン文字よりも推論と結論の2倍のミスアライメントを示している。
論文 参考訳(メタデータ) (2025-12-27T21:55:21Z) - Can LLMs Faithfully Explain Themselves in Low-Resource Languages? A Case Study on Emotion Detection in Persian [0.0]
大規模言語モデル(LLM)は、予測と並行して自己説明を生成するためにますます使用される。
本研究では,ペルシャ語における感情分類の文脈におけるLLM生成の説明の忠実性を評価する。
論文 参考訳(メタデータ) (2025-11-24T21:29:15Z) - Think Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learning [85.7304930030649]
本稿では,言語一貫性報酬と言語間思考アライメント報酬によって訓練されたM-Thinkerを提案する。
M-Thinkerは2つのマルチ言語ベンチマークで100%近い言語一貫性と優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-10-08T17:55:02Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。