論文の概要: a1: Steep Test-time Scaling Law via Environment Augmented Generation
- arxiv url: http://arxiv.org/abs/2504.14597v1
- Date: Sun, 20 Apr 2025 12:55:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 23:32:28.930759
- Title: a1: Steep Test-time Scaling Law via Environment Augmented Generation
- Title(参考訳): a1:環境拡張生成によるステップテストタイムスケーリング法
- Authors: Lingrui Mei, Shenghua Liu, Yiwei Wang, Baolong Bi, Yuyao Ge, Jun Wan, Yurong Wu, Xueqi Cheng,
- Abstract要約: Environment Augmented Generation (EAG) は、大規模言語モデルの推論をリアルタイムな環境フィードバックによって強化するフレームワークである。
EAGは、実行フィードバックと分岐探索の緊密な統合を通じて、意図的にバックトラックと戦略的再計画を可能にする。
A1-32Bモデルは、すべてのベンチマークで類似サイズのモデル間で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 45.19240207975418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have made remarkable breakthroughs in reasoning, yet continue to struggle with hallucinations, logical errors, and inability to self-correct during complex multi-step tasks. Current approaches like chain-of-thought prompting offer limited reasoning capabilities that fail when precise step validation is required. We propose Environment Augmented Generation (EAG), a framework that enhances LLM reasoning through: (1) real-time environmental feedback validating each reasoning step, (2) dynamic branch exploration for investigating alternative solution paths when faced with errors, and (3) experience-based learning from successful reasoning trajectories. Unlike existing methods, EAG enables deliberate backtracking and strategic replanning through tight integration of execution feedback with branching exploration. Our a1-32B model achieves state-of-the-art performance among similar-sized models across all benchmarks, matching larger models like o1 on competition mathematics while outperforming comparable models by up to 24.4 percentage points. Analysis reveals EAG's distinctive scaling pattern: initial token investment in environment interaction yields substantial long-term performance dividends, with advantages amplifying proportionally to task complexity. EAG's theoretical framework demonstrates how environment interactivity and systematic branch exploration together establish a new paradigm for reliable machine reasoning, particularly for problems requiring precise multi-step calculation and logical verification.
- Abstract(参考訳): 大規模言語モデル(LLM)は、推論において目覚ましいブレークスルーをしましたが、幻覚、論理的誤り、複雑なマルチステップタスクにおいて自己修正ができないことに悩まされ続けています。
チェーン・オブ・シークレットのような現在のアプローチは、正確なステップ検証が必要な場合に失敗する限定的な推論機能を提供する。
本研究では,LLM推論を向上するフレームワークである環境拡張生成(EAG)を提案する。(1)各推論ステップを検証するリアルタイム環境フィードバック,(2)エラーに直面した際の代替解経路を探索するための動的分岐探索,(3)成功した推論軌道からの経験に基づく学習。
既存の方法とは異なり、EAGは分岐探索と実行フィードバックの緊密な統合を通じて、意図的にバックトラックと戦略的再計画を可能にする。
我々のa1-32Bモデルは、競合数学におけるo1のようなより大きなモデルと、同等のモデルを最大24.4ポイントの性能で比較しながら、全てのベンチマークで同等の大きさのモデル間で最先端のパフォーマンスを達成する。
環境相互作用に対する初期トークン投資は、タスクの複雑さに比例して増幅する利点とともに、相当な長期的パフォーマンスの配当をもたらす。
EAGの理論的枠組みは、特に正確な多段階計算と論理的検証を必要とする問題に対して、環境の相互作用性と系統的な分岐探索がいかにして信頼性の高い機械推論のための新しいパラダイムを確立するかを示す。
関連論文リスト
- Credible plan-driven RAG method for Multi-hop Question Answering [2.5772544412212985]
マルチホップ質問応答(QA)は、検索機能強化世代(RAG)にとって大きな課題となる。
中間結果の推論経路や誤りの偏りは、現在のRAG法でよく見られるもので、推論プロセスを通して伝播し蓄積する。
本稿では,計画・行動・レビューという3つの重要な段階に分けられるPAR RAG(Plan-then-Act-and-Review)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-23T15:03:17Z) - AlignRAG: An Adaptable Framework for Resolving Misalignments in Retrieval-Aware Reasoning of RAG [61.28113271728859]
Retrieval-augmented Generation (RAG) は知識基底テキスト生成の基礎パラダイムとして登場した。
既存のRAGパイプラインは、しばしば、推論軌跡が、検索されたコンテンツによって課される明らかな制約と一致しないことを保証するのに失敗する。
そこで我々は,反復的批判駆動アライメントステップによる推論ミスアライメントを緩和する新しいテストタイムフレームワークであるAlignRAGを提案する。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM [18.275547804539016]
AIME24およびLiveCodeBenchベンチマークにおいて、DeepSeek-R1-Zero-32Bの性能を上回る2段階の履歴サンプリングポリシー最適化(SRPO)を提案する。
本研究では,(1)数学的推論と符号化能力の両立を図った2段階のクロスドメイン・トレーニングパラダイム,(2)非効率なサンプルに対処する手法であるヒストリ・サンプリング(HR)を紹介する。
論文 参考訳(メタデータ) (2025-04-19T13:06:03Z) - S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models [13.083179473480705]
大規模推論モデル(LRM)の深い分析的思考への依存は、システム1の思考能力を制限する可能性がある。
S1-Benchは、簡単なタスクでLEMの性能を評価するために設計された新しいベンチマークである。
論文 参考訳(メタデータ) (2025-04-14T16:13:23Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging [17.038807261969033]
Long-to-Short (L2S) 推論は推論深度と実用効率のバランスをとることを目的としている。
モデルマージは、System 1モデルの迅速な思考能力とSystem 2モデルの方法論的推論を統合することで、コスト効率が高く堅牢な代替手段を提供する。
実験の結果,モデルマージにより平均応答長を最大55%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-26T15:34:37Z) - FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。
状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。
状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文 参考訳(メタデータ) (2025-02-27T16:23:25Z) - A NotSo Simple Way to Beat Simple Bench [0.0]
本稿では,大規模言語モデル(LLM)における推論能力向上のための新しい枠組みを提案する。
モデル精度とロバスト性を改善するために,グローバルな整合性チェックと組み合わせたマルチステッププロンプト戦略を提案する。
クロードは論理的整合性を維持するのに優れ, GPT-4oは探索的創造性を示すが, 曖昧なプロンプトに苦しむ。
論文 参考訳(メタデータ) (2024-12-12T16:04:31Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。