論文の概要: What Really Counts? Examining Step and Token Level Attribution in Multilingual CoT Reasoning
- arxiv url: http://arxiv.org/abs/2511.15886v1
- Date: Wed, 19 Nov 2025 21:23:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.379638
- Title: What Really Counts? Examining Step and Token Level Attribution in Multilingual CoT Reasoning
- Title(参考訳): マルチリンガルCoT推論におけるステップおよびトークンレベルの属性の検討
- Authors: Jeremias Ferrao, Ezgi Basar, Khondoker Ittehadul Islam, Mahrokh Hassani,
- Abstract要約: 本研究では,多言語LLMにおけるChain-of-Thought(CoT)推論の帰属パターンについて検討した。
ステップレベルの属性に対するContextCiteとトークンレベルの属性に対するInseqの2つの補完属性手法をQwen2.5 1.5B-Instructモデルに適用する。
実験結果から,(1)帰属スコアは最終推論ステップ,特に不正確な世代において過度に強調され,(2)構造化CoTは高解像度ラテン文字言語の精度を著しく向上させ,(3)否定文や散逸文による制御摂動はモデル精度と帰属コヒーレンスを低下させる,といった重要な結果が得られた。
- 参考スコア(独自算出の注目度): 0.03499870393443267
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study investigates the attribution patterns underlying Chain-of-Thought (CoT) reasoning in multilingual LLMs. While prior works demonstrate the role of CoT prompting in improving task performance, there are concerns regarding the faithfulness and interpretability of the generated reasoning chains. To assess these properties across languages, we applied two complementary attribution methods--ContextCite for step-level attribution and Inseq for token-level attribution--to the Qwen2.5 1.5B-Instruct model using the MGSM benchmark. Our experimental results highlight key findings such as: (1) attribution scores excessively emphasize the final reasoning step, particularly in incorrect generations; (2) structured CoT prompting significantly improves accuracy primarily for high-resource Latin-script languages; and (3) controlled perturbations via negation and distractor sentences reduce model accuracy and attribution coherence. These findings highlight the limitations of CoT prompting, particularly in terms of multilingual robustness and interpretive transparency.
- Abstract(参考訳): 本研究では,多言語LLMにおけるChain-of-Thought(CoT)推論の帰属パターンについて検討した。
先行研究は、タスクパフォーマンス改善におけるCoTプロンプトの役割を示しているが、生成された推論チェーンの忠実性と解釈可能性に関する懸念がある。
これらの特性を言語間で評価するために、ステップレベルの属性に対するContextCiteとトークンレベルの属性に対するInseqの2つの補完属性手法をMGSMベンチマークを用いてQwen2.5 1.5B-Instructモデルに適用した。
実験の結果,(1)帰属スコアは最終推論ステップ,特に不正確な世代において過度に強調され,(2)構造化されたCoTは,主にラテン文字言語において精度を著しく向上させ,(3)否定文や散逸文による摂動制御はモデル精度と帰属コヒーレンスを低下させる,といった重要な結果が示された。
これらの知見は、特に多言語的堅牢性と解釈的透明性の観点から、CoTプロンプトの限界を浮き彫りにしている。
関連論文リスト
- On the Entity-Level Alignment in Crosslingual Consistency [62.33186691736433]
SubSubとSubInjは、主題の英語翻訳を言語間のプロンプトに統合し、実際のリコール精度と一貫性を大きく向上させた。
これらの介入はモデルの内部ピボット言語処理を通じて概念空間における実体表現のアライメントを強化する。
論文 参考訳(メタデータ) (2025-10-11T16:26:50Z) - Think Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learning [85.7304930030649]
本稿では,言語一貫性報酬と言語間思考アライメント報酬によって訓練されたM-Thinkerを提案する。
M-Thinkerは2つのマルチ言語ベンチマークで100%近い言語一貫性と優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-10-08T17:55:02Z) - Robust Native Language Identification through Agentic Decomposition [23.899157231471104]
大規模言語モデル(LLM)は、表面的な文脈的手がかりを利用することで、ネイティブ言語識別(NLI)ベンチマークで高いパフォーマンスを達成することが多い。
このような戦略は信頼できないことを示し、モデル予測は誤解を招くヒントによって容易に変更可能であることを示す。
専門エージェントが多種多様な言語的証拠を蓄積・分類する,法医学的言語学にヒントを得たエージェントNLIパイプラインを導入する。
論文 参考訳(メタデータ) (2025-09-20T12:38:03Z) - Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。
我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文 参考訳(メタデータ) (2025-02-21T00:48:32Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - How does a Language-Specific Tokenizer affect LLMs? [0.36248657646376703]
言語固有のトークン化器の必要性は、効果的な自然言語処理にとって直感的に重要である。
本研究では、言語固有のトークン化剤が、主に英語のテキストデータを用いて訓練された大規模言語モデルの振る舞いにどのように影響するかを考察する。
論文 参考訳(メタデータ) (2025-02-18T05:54:56Z) - Markovian Transformers for Informative Language Modeling [1.172865818448696]
CoT(Chain-of-Thought)推論は、しばしば言語モデルの根底にある決定プロセスを忠実に反映しない。
推論オートエンコーダとして理解可能なマルコフ言語モデルフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-29T17:36:58Z) - Igniting Language Intelligence: The Hitchhiker's Guide From
Chain-of-Thought Reasoning to Language Agents [80.5213198675411]
大規模言語モデル(LLM)は言語知能の分野を劇的に拡張した。
LLMは興味をそそるチェーン・オブ・シークレット(CoT)推論技術を活用し、答えを導き出す途中の中間ステップを定式化しなければならない。
最近の研究は、自律言語エージェントの開発を促進するためにCoT推論手法を拡張している。
論文 参考訳(メタデータ) (2023-11-20T14:30:55Z) - Analyzing Chain-of-Thought Prompting in Large Language Models via
Gradient-based Feature Attributions [10.621564997491808]
チェーン・オブ・シークレット(CoT)のプロンプトは、大規模言語モデルの精度を実証的に改善することが示されている。
我々は、CoTプロンプトが特定の入力トークンに割り当てる相対的重要性に影響を及ぼすかどうかを検討する。
以上の結果から,CoTプロンプトは意味的関連トークンによるサリエンシスコアの規模を増大させるものではないが,サリエンシスコアのロバスト性を高め,モデル出力の摂動や変動に疑問を投げかけることが示唆された。
論文 参考訳(メタデータ) (2023-07-25T08:51:30Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。