論文の概要: Expanding Computation Spaces of LLMs at Inference Time
- arxiv url: http://arxiv.org/abs/2509.24884v1
- Date: Mon, 29 Sep 2025 14:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.068209
- Title: Expanding Computation Spaces of LLMs at Inference Time
- Title(参考訳): 推論時間におけるLLMの計算空間の拡大
- Authors: Yoonna Jang, Kisu Yang, Isabelle Augenstein,
- Abstract要約: Chain-of-Thought(CoT)の理論的根拠により、言語モデルでは問題解決にタスク関連のテキストを追加することができる。
本稿では,人工的に挿入されたフィラートークンのシーケンスを推論のみに活用できる言語モデルについて検討する。
- 参考スコア(独自算出の注目度): 33.17624792878245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) rationale enables language models to use additional task-related text for problem-solving, benefiting not only from detailed reasoning steps but also from the expanded computational space of longer inputs. Prior work has trained filler or special tokens to serve as additional computation spaces. In this study, we investigate whether language models can leverage artificially inserted sequences of filler tokens solely at inference. We first identify effective token types, numbers, and insertion locations, then examine at what stage of training models begin to exploit the expanded computation space, and finally analyze dynamics within these spaces via attention maps. Experiments on models ranging from 1.7B to 32B across open-domain QA and math tasks show that appropriate token types and counts vary, but placing filler tokens directly before the final 'Answer:' token is most effective. Smaller models benefit most, up to 12.372 percentage points in SmolLM2-1.7B-Instruct, indicating that these spaces act as additional computational capacity rather than redundant input. Attention maps reveal that expanded spaces often continue the original attention mechanism and sometimes focus on questions or answer options, suggesting meaningful computation for problem-solving.
- Abstract(参考訳): CoT(Chain-of- Thought)の理論的根拠により、言語モデルでは、より詳細な推論ステップだけでなく、より長い入力の計算空間からも恩恵を受けることができる。
以前の作業では、追加の計算空間として機能するように、フィラーや特別なトークンを訓練してきた。
本研究では,人工的に挿入されたフィラートークンのシーケンスを推論時にのみ活用できる言語モデルについて検討した。
まず、有効なトークンタイプ、番号、挿入位置を特定し、次に、拡張された計算空間を利用するトレーニングモデルのどの段階から開始するかを調べ、最後に、注意マップを通してこれらの空間内のダイナミクスを分析する。
オープンドメインのQAおよび数学タスクにわたる1.7Bから32Bまでのモデルの実験では、適切なトークンタイプとカウントが異なるが、最後の'Answer:'トークンの前にフィラートークンを配置するのが最も効果的である。
より小さなモデルは、SmolLM2-1.7B-インストラクションで最大12.372ポイントの恩恵を受けており、これらの空間が冗長な入力ではなく計算能力として機能していることを示している。
注意マップは、拡張された空間が元の注意機構を継続し、時には質問や答えの選択肢に焦点を合わせ、問題解決に意味のある計算を提案する。
関連論文リスト
- All for One: LLMs Solve Mental Math at the Last Token With Information Transferred From Other Tokens [14.890542559477906]
理論的には、因果自己注意層と多層パーセプトロン層の組み合わせにより、全てのトークンが先行する全てのトークンに基づいて情報にアクセスし、計算することができる。
初期層における入力固有のトークン計算の抑制、次の数層におけるトークン位置間の情報伝達経路の制限、残りの層における最後のトークンにおける全ての計算を強制する3つのステップについて検討する。
論文 参考訳(メタデータ) (2025-09-11T17:41:29Z) - Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。
LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。
本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文 参考訳(メタデータ) (2025-06-16T03:00:40Z) - Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [53.57895922042783]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:33:00Z) - SAISA: Towards Multimodal Large Language Models with Both Training and Inference Efficiency [47.03718208259308]
トレーニングと推論の効率を両立させる新しいアーキテクチャであるSAISAを紹介する。
LLaVA-1.5と同じ構成で、SAISAは推測FLOPを66%削減し、トレーニング予算を26%削減した。
論文 参考訳(メタデータ) (2025-02-04T16:28:53Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Let's Think Dot by Dot: Hidden Computation in Transformer Language Models [30.972412126012884]
言語モデルの連鎖応答は、ほとんどのベンチマークのパフォーマンスを改善する。
変換器は、2つの難解なアルゴリズムタスクを解くための思考の連鎖の代わりに無意味なフィラートークンを使用できることを示す。
フィラートークンを使用する学習は困難であり、収束するためには、具体的で密集した監督が必要である。
論文 参考訳(メタデータ) (2024-04-24T09:30:00Z) - Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。
私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z) - Exploring the Space of Key-Value-Query Models with Intention [8.585795909956726]
Attentionの2つの重要なコンポーネントは、入力の構造(キー、値、クエリで構成される)と、これら3つを組み合わせる計算である。
KVQ(Keys-Values-Queries)空間と呼ぶ。
我々のゴールは、注意が効率的に近似できないKVQ空間に他の積み重ね可能なモデルが存在するかどうかを決定することである。
論文 参考訳(メタデータ) (2023-05-17T13:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。