論文の概要: Beg to Differ: Understanding Reasoning-Answer Misalignment Across Languages
- arxiv url: http://arxiv.org/abs/2512.22712v1
- Date: Sat, 27 Dec 2025 21:55:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.187757
- Title: Beg to Differ: Understanding Reasoning-Answer Misalignment Across Languages
- Title(参考訳): Beg to Differ: Reasoning-Answer Misalignment Across Languages
- Authors: Anaelia Ovalle, Candace Ross, Sebastian Ruder, Adina Williams, Karen Ullrich, Mark Ibrahim, Levent Sagun,
- Abstract要約: 我々はGlobalMMLUの6つの言語と6つのフロンティアモデルにおける65kの推論トレースを分析した。
非ラテン文字における推論の痕跡は、少なくともラテン文字よりも推論と結論の2倍のミスアライメントを示している。
- 参考スコア(独自算出の注目度): 43.36259715282423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models demonstrate strong reasoning capabilities through chain-of-thought prompting, but whether this reasoning quality transfers across languages remains underexplored. We introduce a human-validated framework to evaluate whether model-generated reasoning traces logically support their conclusions across languages. Analyzing 65k reasoning traces from GlobalMMLU questions across 6 languages and 6 frontier models, we uncover a critical blind spot: while models achieve high task accuracy, their reasoning can fail to support their conclusions. Reasoning traces in non-Latin scripts show at least twice as much misalignment between their reasoning and conclusions than those in Latin scripts. We develop an error taxonomy through human annotation to characterize these failures, finding they stem primarily from evidential errors (unsupported claims, ambiguous facts) followed by illogical reasoning steps. Our findings demonstrate that current multilingual evaluation practices provide an incomplete picture of model reasoning capabilities and highlight the need for reasoning-aware evaluation frameworks.
- Abstract(参考訳): 大規模言語モデルは、チェーン・オブ・ソート・プロンプトを通じて強力な推論能力を示すが、この推論品質の言語間での伝達は未解明のままである。
本稿では,モデル生成推論トレースが言語間の結論を論理的に支持するかどうかを評価するための,人間検証フレームワークを提案する。
6つの言語と6つのフロンティアモデルにわたるGlobalMMLU質問から65kの推論トレースを分析したところ、重要な盲点が明らかになった。
非ラテン文字における推論の痕跡は、少なくともラテン文字よりも推論と結論の2倍のミスアライメントを示している。
これらの失敗を特徴付けるために、人間のアノテーションを通してエラー分類を開発し、主に明らかな誤り(根拠のない主張、曖昧な事実)から派生し、その後に非論理的推論のステップをたどる。
本研究は,現在の多言語評価手法が,モデル推論能力の不完全な図形を提供し,推論対応評価フレームワークの必要性を強調していることを示す。
関連論文リスト
- Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。
文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文 参考訳(メタデータ) (2025-05-23T02:46:18Z) - LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation [1.2576388595811496]
自然言語を基盤とした挑戦的推論ベンチマークであるlingOLY-TOOを紹介する。
実言語で記述された推論問題をパーミュレートして、多数の質問のバリエーションを生成する。
実験と分析は、モデルが推論を回避し、事前の知識から回答できることを示している。
論文 参考訳(メタデータ) (2025-03-04T19:57:47Z) - Reasoning Elicitation in Language Models via Counterfactual Feedback [17.908819732623716]
事実と反事実の質問において精度のバランスをとる新しい指標を導出する。
本稿では,より優れた推論機構を実現するための微調整手法を提案する。
各種現実シナリオにおける微調整言語モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-10-02T15:33:30Z) - Conceptual and Unbiased Reasoning in Language Models [98.90677711523645]
本稿では,抽象的質問に対する概念的推論をモデルに強制する,新しい概念化フレームワークを提案する。
既存の大規模言語モデルは概念的推論では不足しており、様々なベンチマークでは9%から28%に低下している。
ハイレベルな抽象的推論が不偏で一般化可能な意思決定の鍵となるので、モデルがどのように改善できるかについて議論する。
論文 参考訳(メタデータ) (2024-03-30T00:53:53Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - ALERT: Adapting Language Models to Reasoning Tasks [43.8679673685468]
ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートである。
ALERTは、あらゆる言語モデルに対して、きめ細かい推論スキルを評価するためのテストベッドを提供する。
言語モデルは、事前学習状態と比較して、微調整段階の推論スキルを学習する。
論文 参考訳(メタデータ) (2022-12-16T05:15:41Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。