論文の概要: Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space
- arxiv url: http://arxiv.org/abs/2505.13308v1
- Date: Mon, 19 May 2025 16:26:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.730149
- Title: Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space
- Title(参考訳): Seek in the Dark: 潜時空間におけるテスト時間インスタンス-レベルポリシーの勾配による推論
- Authors: Hengli Li, Chenxi Li, Tong Wu, Xuekai Zhu, Yuxuan Wang, Zhaoxin Yu, Eric Hanchen Jiang, Song-Chun Zhu, Zixia Jia, Ying Nian Wu, Zilong Zheng,
- Abstract要約: テスト時間インスタンスレベルの適応(TTIA)を通じて推論を強化するフレームワークであるLatentSeekを紹介した。
LatentSeekは、GSM8K、MATH-500、AIME2024など、さまざまな推論ベンチマークで評価されている。
結果は、LatentSeekが一貫して強力なベースラインを上回っていることを示している。
- 参考スコア(独自算出の注目度): 82.75174050101108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning ability, a core component of human intelligence, continues to pose a significant challenge for Large Language Models (LLMs) in the pursuit of AGI. Although model performance has improved under the training scaling law, significant challenges remain, particularly with respect to training algorithms, such as catastrophic forgetting, and the limited availability of novel training data. As an alternative, test-time scaling enhances reasoning performance by increasing test-time computation without parameter updating. Unlike prior methods in this paradigm focused on token space, we propose leveraging latent space for more effective reasoning and better adherence to the test-time scaling law. We introduce LatentSeek, a novel framework that enhances LLM reasoning through Test-Time Instance-level Adaptation (TTIA) within the model's latent space. Specifically, LatentSeek leverages policy gradient to iteratively update latent representations, guided by self-generated reward signals. LatentSeek is evaluated on a range of reasoning benchmarks, including GSM8K, MATH-500, and AIME2024, across multiple LLM architectures. Results show that LatentSeek consistently outperforms strong baselines, such as Chain-of-Thought prompting and fine-tuning-based methods. Furthermore, our analysis demonstrates that LatentSeek is highly efficient, typically converging within a few iterations for problems of average complexity, while also benefiting from additional iterations, thereby highlighting the potential of test-time scaling in the latent space. These findings position LatentSeek as a lightweight, scalable, and effective solution for enhancing the reasoning capabilities of LLMs.
- Abstract(参考訳): ヒューマンインテリジェンスのコアコンポーネントである推論能力は、AGIの追求において、Large Language Models (LLM) にとって重要な課題となっている。
モデル性能は、トレーニングスケーリング法の下で改善されているが、特に破滅的な忘れ込みや新しいトレーニングデータの可用性の制限といったトレーニングアルゴリズムに関して、大きな課題が残っている。
代替として、テスト時間スケーリングは、パラメータを更新せずにテスト時間計算を増やすことにより、推論性能を向上させる。
トークン空間に焦点をあてたこのパラダイムの従来の手法とは異なり、より効果的な推論とテスト時間スケーリング則の遵守のために潜在空間を活用することを提案する。
テスト時間インスタンスレベルの適応(TTIA)を通じてLCM推論を強化する新しいフレームワークであるLatentSeekを紹介した。
具体的には、LatentSeekはポリシー勾配を利用して、自己生成された報酬信号によって導かれる遅延表現を反復的に更新する。
LatentSeek は GSM8K, MATH-500, AIME2024 など,複数の LLM アーキテクチャにまたがる様々な推論ベンチマークで評価されている。
結果は、LatentSeekがChain-of-Thoughtのプロンプトや微調整ベースのメソッドなど、強力なベースラインを一貫して上回っていることを示している。
さらに、我々の分析は、LatentSeekが非常に効率的であることを示し、通常、平均的な複雑さの問題に対して数回のイテレーションで収束する一方で、追加のイテレーションの恩恵を受け、潜在空間におけるテスト時間スケーリングの可能性を強調します。
これらの知見は、LLMの推論能力を高めるための軽量でスケーラブルで効果的なソリューションとして、LatentSeekを位置づけている。
関連論文リスト
- Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - How Difficulty-Aware Staged Reinforcement Learning Enhances LLMs' Reasoning Capabilities: A Preliminary Experimental Study [16.441081996257576]
本稿では,難易度の高い強化学習戦略が推論性能を大幅に向上させる方法について,厳密な実験的検討を行った。
本研究は,RLの最適化を著しく向上させることを特徴とする,明確な難易度に応じて,戦略的にトレーニングデータを選択することを示す。
私たちはデータセットをGitHubとHugging Faceでオープンソース化します。
論文 参考訳(メタデータ) (2025-04-01T14:18:38Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - CFSSeg: Closed-Form Solution for Class-Incremental Semantic Segmentation of 2D Images and 3D Point Clouds [9.765104818970277]
クラスインクリメンタルセマンティックセグメンテーション(CSS)では、事前知識を維持しながら、新たなセマンティックカテゴリを漸進的に学習する必要がある。
CFSSegは, クローズド・フォーム・ソリューションを応用した, 斬新な外見のない手法である。
これにより、反復的な勾配ベースの最適化と過去のデータの保存が不要になり、ステップ毎に新しいサンプルを1回だけ通過する必要がなくなる。
論文 参考訳(メタデータ) (2024-12-14T13:39:56Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - Temporal Scaling Law for Large Language Models [57.83580734589091]
本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。
テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。
動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文 参考訳(メタデータ) (2024-04-27T05:49:11Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。