論文の概要: MARINE: Theoretical Optimization and Design for Multi-Agent Recursive IN-context Enhancement
- arxiv url: http://arxiv.org/abs/2512.07898v1
- Date: Fri, 05 Dec 2025 11:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.667162
- Title: MARINE: Theoretical Optimization and Design for Multi-Agent Recursive IN-context Enhancement
- Title(参考訳): MARINE:マルチエージェント再帰的インコンテキスト拡張のための理論的最適化と設計
- Authors: Hongwei Zhang, Ji Lu, Yongsheng Du, Yanqin Gao, Lingjun Huang, Baoli Wang, Fang Tan, Peng Zou,
- Abstract要約: 大きな言語モデル(LLM)ベースのエージェントは高度な推論能力を示すが、実用的な制約は出力を単一応答に制限することが多い。
本稿では,テスト時間推論を永続的参照軌道の反復的洗練として再認識するフレームワークであるMARINEを紹介する。
提案されたMARINEは、従来のサンプリング・アンド・グレード戦略よりも高品質なサンプルをアライメントと最適化プロセスに提供します。
- 参考スコア(独自算出の注目度): 5.852607388888843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM)-based agents demonstrate advanced reasoning capabilities, yet practical constraints frequently limit outputs to single responses, leaving significant performance potential unrealized. This paper introduces MARINE (Multi-Agent Recursive IN-context Enhancement), a theoretically grounded framework that reconceptualizes test-time reasoning as iterative refinement of a persistent reference trajectory, fundamentally departing from conventional one-shot or multi-sample paradigms. The MARINE refinement operator systematically converts a base model's pass@N capabilities into near-optimal pass@1 performance. Rigorous theoretical analysis establishes that minimal feasible batches maximize expected performance gains under fixed invocation budgets, while logarithmically growing batch schedules ensure continuous improvement without computational constraints. Comprehensive evaluation on the BrowserComp-ZH benchmark demonstrates state-of-the-art results, with a 685B-parameter implementation achieving 46.0% pass@1 accuracy. Meanwhile, MARINE establishes a new paradigm for parameter-efficient reasoning: an 80B-parameter model augmented with MARINE matches the performance of standalone 1000B-parameter agents, reducing parameter requirements by over an order of magnitude. Notably, within a fixed computational budget, the proposed MARINE delivers higher-quality samples to alignment and optimization processes than traditional sampling-and-ranking strategies. Consequently, it has great potential to boost post-training efficiency.
- Abstract(参考訳): LLM(Large Language Model)ベースのエージェントは、高度な推論能力を示すが、実用的な制約は出力を単一応答に制限し、大幅な性能の可能性を秘めている。
MARINE(Multi-Agent Recursive IN-context Enhancement)は、従来のワンショットやマルチサンプルのパラダイムから根本的に逸脱した、永続的な参照軌道の反復的洗練としてテスト時間推論を再現する理論的な基盤となるフレームワークである。
MARINEリファインメント演算子は、ベースモデルのpass@N機能をほぼ最適のpass@1パフォーマンスに体系的に変換する。
厳密な理論的分析により、最小限の実行可能なバッチは、固定された呼び出し予算の下で期待されるパフォーマンス向上を最大化し、対数的に増大するバッチスケジュールは、計算制約なしで継続的な改善を保証する。
BrowserComp-ZHベンチマークの総合評価では、685Bパラメータの実装により46.0%のpass@1精度を実現している。
一方、MARINEはパラメータ効率推論のための新しいパラダイムを確立し、MARINEを付加した80Bパラメータモデルはスタンドアロンの1000Bパラメーターエージェントのパフォーマンスと一致し、パラメータ要求を桁違いに削減する。
特に、固定された計算予算の中で、提案されたMARINEは、従来のサンプリング・アンド・グレード戦略よりも高品質なサンプルをアライメントと最適化のプロセスに提供します。
そのため、訓練後の効率を高める大きな可能性がある。
関連論文リスト
- Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - Benchmarking Generative AI Against Bayesian Optimization for Constrained Multi-Objective Inverse Design [0.15293427903448018]
本稿では,制約付き多目的回帰タスクを解くための生成可能な言語モデル(LLM)の性能について検討する。
最高の性能のLDM(Math-7B)は1.21の世代距離(GD)を達成した。
この知見は, 樹脂, レオロジー, 化学特性の定式化設計の最適化に, 直接工業的応用が期待できる。
論文 参考訳(メタデータ) (2025-10-29T10:37:09Z) - Quantum-Inspired DRL Approach with LSTM and OU Noise for Cut Order Planning Optimization [0.0]
裁量計画(COP)は繊維産業において重要な課題であり、繊維の利用と製造コストに直接影響を及ぼす。
本稿では,Long Short-Term Memory NetworkとOrnstein-Uhlenbeckノイズを統合した量子インスパイアされたDeep Reinforcement Learningフレームワークを提案する。
比較分析の結果,提案手法は従来手法と比較して最大13%のコスト削減を実現していることがわかった。
論文 参考訳(メタデータ) (2025-08-13T05:00:50Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Optimizing Hyperparameters with Conformal Quantile Regression [7.316604052864345]
本稿では,観測ノイズについて最小限の仮定を行う等化量子レグレッションを活用することを提案する。
これは経験的ベンチマークでのHPO収束を早くすることを意味する。
論文 参考訳(メタデータ) (2023-05-05T15:33:39Z) - Optimization of Annealed Importance Sampling Hyperparameters [77.34726150561087]
Annealed Importance Smpling (AIS) は、深層生成モデルの難易度を推定するために使われる一般的なアルゴリズムである。
本稿では、フレキシブルな中間分布を持つパラメータAISプロセスを提案し、サンプリングに少ないステップを使用するようにブリッジング分布を最適化する。
我々は, 最適化AISの性能評価を行い, 深部生成モデルの限界推定を行い, 他の推定値と比較した。
論文 参考訳(メタデータ) (2022-09-27T07:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。