論文の概要: Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps
- arxiv url: http://arxiv.org/abs/2502.15120v1
- Date: Fri, 21 Feb 2025 00:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:11:14.035298
- Title: Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps
- Title(参考訳): 言語モデルにおける推論しきい値:注意図によるスケーリング、微調整、解釈可能性
- Authors: Yen-Che Hsiao, Abhishek Dutta,
- Abstract要約: 本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。
我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
- 参考スコア(独自算出の注目度): 3.8936716676293917
- License:
- Abstract: This study investigates the in-context learning capabilities of various decoder-only transformer-based language models with different model sizes and training data, including GPT2, SmolLM2, OpenELM, TinyLlama, Stable LM, and Gemma 2. We identify a critical parameter threshold (~1.6 billion), beyond which reasoning performance improves significantly in tasks such as commonsense reasoning in multiple-choice question answering and deductive reasoning. Specifically, models above this threshold achieve better success rates in chain-of-thought (CoT) prompting for deductive reasoning tasks, especially those requiring longer reasoning chains, such as proof by contradiction and disjunction elimination. To address limitations in sub-threshold models, we demonstrate that fine-tuning with task-specific exemplars substantially enhances reasoning performance, enabling accurate CoT generation even without additional exemplars in the prompt for tasks with shorter reasoning chains. Finally, our analysis of attention maps reveals that models capable of generating correct CoTs exhibit higher token-level attention scores on subsequent correct tokens and the correct parts of speech, providing interpretability insights into reasoning processes. These findings collectively advance understanding of reasoning capabilities in decoder-only transformer-based models. The code is available at: https://github.com/AnnonymousForPapers/CoT_Reasoning_Test.
- Abstract(参考訳): 本研究では, GPT2, SmolLM2, OpenELM, TinyLlama, Stable LM, Gemma 2 など,様々なモデルサイズとトレーニングデータを持つデコーダのみのトランスフォーマベース言語モデルのコンテキスト内学習能力について検討した。
我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(約1.6億)を同定する。
具体的には、このしきい値を超えるモデルは、推論的推論タスク、特に矛盾による証明や解離の排除のようなより長い推論的連鎖を必要とするタスクを促進するために、チェーン・オブ・シント(CoT)におけるより良い成功率を達成する。
サブスレッショルドモデルにおける制約に対処するため、タスク固有例による微調整が推論性能を大幅に向上し、より短い推論連鎖を持つタスクのプロンプトにおいて、追加の例がなくても正確なCoT生成を可能にすることを示した。
最後に,適切なCoTを生成することができるモデルが,その後の正しいトークンや音声の正しい部分に対して高いトークンレベルのアテンションスコアを示し,推論過程に対する解釈可能性の洞察を提供することを示す。
これらの結果は,デコーダのみを用いた変圧器モデルにおける推論能力を総合的に理解している。
コードは、https://github.com/AnnonymousForPapers/CoT_Reasoning_Testで入手できる。
関連論文リスト
- STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Pruning Literals for Highly Efficient Explainability at Word Level [13.249876381579158]
Tsetlin Machine(TM)は、命題論理を用いた単語レベルの説明を提供する能力があるので、有望である。
本稿では,文中にランダムに置かれるリテラルを排除した節のポストホックプルーニングを設計する。
一般公開されたYELP-HATデータセットの実験では、提案されたプルーンドTMのアテンションマップが、バニラTMのアテンションマップよりも人間のアテンションマップと一致していることが示されている。
論文 参考訳(メタデータ) (2024-11-07T09:28:38Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - A Hopfieldian View-based Interpretation for Chain-of-Thought Reasoning [48.51969964676017]
CoT(Chain-of-Thought)は、大規模言語モデルの推論性能を高める上で重要な位置を占めている。
本稿では,CoTの精度を制御するためのリード・アンド・コントロル手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T04:07:13Z) - Beyond Imitation: Learning Key Reasoning Steps from Dual Chain-of-Thoughts in Reasoning Distillation [24.272384832200522]
我々はmistaktextbfE-textbfDriven key reasontextbfIng step distillatextbfTion (textbfEDIT)を提案する。
我々は、類似の推論経路を持つ2つのCoTsデータを生成するためのプロンプトを設計する。
実験は、ドメイン内およびドメイン外のベンチマーク推論データセットの両方でEDITの有効性を検証する。
論文 参考訳(メタデータ) (2024-05-30T06:32:11Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z) - Analyzing Chain-of-Thought Prompting in Large Language Models via
Gradient-based Feature Attributions [10.621564997491808]
チェーン・オブ・シークレット(CoT)のプロンプトは、大規模言語モデルの精度を実証的に改善することが示されている。
我々は、CoTプロンプトが特定の入力トークンに割り当てる相対的重要性に影響を及ぼすかどうかを検討する。
以上の結果から,CoTプロンプトは意味的関連トークンによるサリエンシスコアの規模を増大させるものではないが,サリエンシスコアのロバスト性を高め,モデル出力の摂動や変動に疑問を投げかけることが示唆された。
論文 参考訳(メタデータ) (2023-07-25T08:51:30Z) - Question Decomposition Improves the Faithfulness of Model-Generated
Reasoning [23.34325378824462]
大規模言語モデル(LLM)は、その振る舞いの正しさと安全性を検証するのが困難である。
一つのアプローチは、LLMが質問に答えるときにステップバイステップの推論を生成することによって、彼らの推論を外部化するように促すことである。
このアプローチは、モデルの実的推論を忠実に反映する記述された推論に依存しており、必ずしもそうではない。
分解に基づく手法は、時にはCoTの手法に近づき、質問応答タスクにおいて高い性能を達成する。
論文 参考訳(メタデータ) (2023-07-17T00:54:10Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。