論文の概要: A Multi-Agent Framework for Stateful Inference-Time Search
- arxiv url: http://arxiv.org/abs/2510.07147v1
- Date: Wed, 08 Oct 2025 15:48:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.601988
- Title: A Multi-Agent Framework for Stateful Inference-Time Search
- Title(参考訳): ステートフルな推論時間探索のためのマルチエージェントフレームワーク
- Authors: Arshika Lalan, Rajat Ghosh, Aditya Kolsur, Debojyoti Dutta,
- Abstract要約: ステートフルなマルチエージェント進化探索は、永続的な推論時間状態、敵対突然変異、進化保存を組み合わせたものである。
エッジケースの生成による自動単体テスト生成の有効性を示す。
実験により、ステートフルなマルチエージェント推論フレームワークは、ステートレスなシングルステップベースラインよりもかなりの増加率を達成することが示された。
- 参考スコア(独自算出の注目度): 0.5163175134881653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work explores agentic inference-time techniques to perform structured, multi-step reasoning. However, stateless inference often struggles on multi-step tasks due to the absence of persistent state. Moreover, task-specific fine-tuning or instruction-tuning often achieve surface-level code generation but remain brittle on tasks requiring deeper reasoning and long-horizon dependencies. To address these limitations, we propose stateful multi-agent evolutionary search, a training-free framework that departs from prior stateless approaches by combining (i) persistent inference-time state, (ii) adversarial mutation, and (iii) evolutionary preservation. We demonstrate its effectiveness in automated unit test generation through the generation of edge cases. We generate robust edge cases using an evolutionary search process, where specialized agents sequentially propose, mutate, and score candidates. A controller maintains persistent state across generations, while evolutionary preservation ensures diversity and exploration across all possible cases. This yields a generalist agent capable of discovering robust, high-coverage edge cases across unseen codebases. Experiments show our stateful multi-agent inference framework achieves substantial gains in coverage over stateless single-step baselines, evaluated on prevalent unit-testing benchmarks such as HumanEval and TestGenEvalMini and using three diverse LLM families - Llama, Gemma, and GPT. These results indicate that combining persistent inference-time state with evolutionary search materially improves unit-test generation.
- Abstract(参考訳): 最近の研究は、構造化された多段階推論を行うためのエージェント推論時間技術を探究している。
しかし、ステートレス推論は永続的な状態がないため、多段階のタスクでしばしば苦労する。
さらに、タスク固有の微調整や命令チューニングは、しばしば表面レベルのコード生成を実現するが、深い推論と長い水平依存を必要とするタスクには脆弱なままである。
これらの制約に対処するため、我々は、従来のステートレスアプローチから切り離したトレーニング不要のフレームワークであるステートフルなマルチエージェント進化探索を提案する。
(i)持続的推論時間状態
(二)逆境突然変異、及び
(三)進化保存。
エッジケースの生成による自動単体テスト生成の有効性を示す。
我々は進化的探索プロセスを用いて堅牢なエッジケースを生成し、そこでは特殊エージェントが逐次的に候補を提案し、変更し、得点する。
コントローラは世代間で永続的な状態を維持し、進化的保存はすべての可能なケースにおいて多様性と探索を保証する。
これにより、見えないコードベースにまたがる堅牢で高カバレッジのエッジケースを発見できるジェネラリストエージェントが得られる。
実験により、ステートフルなマルチエージェント推論フレームワークは、HumanEvalやTestGenEvalMiniといった一般的な単体テストベンチマークに基づいて評価され、Llama、Gemma、GPTの3つのLLMファミリを使用して、ステートレスなシングルステップベースラインに対するカバレッジを大幅に向上させることが示された。
これらの結果は、永続的推論時間状態と進化的探索を組み合わせることで、単体テストの生成が大幅に改善されることを示唆している。
関連論文リスト
- Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm [60.36837655498119]
本稿では,トラジェクトリをベースとしたエージェント・ベンチマーク・複雑度進化フレームワークを提案する。
このフレームワークは、既存のベンチマークから元のタスクを受け取り、エージェントがそれをより難しい新しいタスクに進化させるよう促す。
GAIAベンチマークの実験では、TRACEフレームワークはタスクの複雑さを継続的に向上し、正確性の信頼性を向上させる。
論文 参考訳(メタデータ) (2025-10-01T01:52:52Z) - Unsupervised Online 3D Instance Segmentation with Synthetic Sequences and Dynamic Loss [52.28880405119483]
教師なしのオンライン3Dインスタンスのセグメンテーションは、基本的だが難しい課題だ。
UNITのような既存の手法はこの方向に進んできたが、訓練の多様性が制限されているままである。
本稿では,合成点雲列生成によるトレーニング分布の強化を目的とした新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T08:53:27Z) - Test-Time Scaling Strategies for Generative Retrieval in Multimodal Conversational Recommendations [70.94563079082751]
電子商取引は、複雑なマルチターンユーザーインタラクションを管理する上で、伝統的な製品検索システムの限界を明らかにしている。
本稿では,対話型マルチモーダル製品検索にテスト時間スケーリングを導入する新しいフレームワークを提案する。
提案手法は生成型レトリバー上に構築され,さらに検索精度の向上と,対話を通してユーザ意図の進化と結果の整合性を向上するテストタイムリグレード機構が組み込まれている。
論文 参考訳(メタデータ) (2025-08-25T15:38:56Z) - NeuCoReClass AD: Redefining Self-Supervised Time Series Anomaly Detection [0.8349690795786082]
自己教師型マルチタスク時系列異常検出フレームワークであるNeuCoReClass ADを紹介する。
本手法では,ドメイン固有の知識を必要とせず,情報的,多様性的,一貫性のある拡張ビューを生成するために,ニューラルトランスフォーメーション学習を用いる。
論文 参考訳(メタデータ) (2025-07-29T15:04:05Z) - EMULATE: A Multi-Agent Framework for Determining the Veracity of Atomic Claims by Emulating Human Actions [0.6144680854063939]
EMULATEは、マルチエージェントフレームワークを使うことで、人間のアクションをよりうまくエミュレートするように設計されている。
いくつかのベンチマークの実験では、以前の作業よりも明らかな改善が示され、新しいマルチエージェントフレームワークの有効性が実証された。
論文 参考訳(メタデータ) (2025-05-22T12:08:08Z) - LSR-MCTS: Alleviating Long Range Dependency in Code Generation [42.10272627826627]
大規模言語モデル(LLM)は、コード生成タスクの開発を著しく促進している。
本稿では,MCTS を利用した textbfLSR-MCTS アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-10T04:03:25Z) - Predicting Multi-Agent Specialization via Task Parallelizability [8.465921582175426]
タスクレギュラーやチームサイズに応じて、特殊化がパフォーマンスを改善することを予測したクローズドフォーム境界を示す。
反対のベンチマークを表す2つの標準MARLベンチマークでモデルを検証した。
Overcooked-AIにおける3つのフォローアップ実験は、このモデルがより複雑な空間的および資源的ボトルネックを持つ環境で動作することを示した。
論文 参考訳(メタデータ) (2025-03-19T21:33:48Z) - MAMM-Refine: A Recipe for Improving Faithfulness in Generation with Multi-Agent Collaboration [63.31211701741323]
我々はマルチエージェント・マルチモデル推論を生成にまで拡張し、特に改良による忠実度の向上を図っている。
我々は,各サブタスクに対して固有の評価を設計し,マルチエージェント(複数インスタンス)とマルチモデル(多変数LPMタイプ)の両方がエラー検出やクオリティクスに有効であることを示す。
我々はこれらの知見を、マルチエージェント・マルチモデル・リファインメント(MAMM-Refinement)と呼ばれる最終的な"レシピ"に統合し、マルチエージェント・マルチモデルコラボレーションがパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-19T14:46:53Z) - Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - Evolving Hierarchical Memory-Prediction Machines in Multi-Task
Reinforcement Learning [4.030910640265943]
行動エージェントは、時間とともに様々な環境や目的にまたがって一般化されなければならない。
遺伝的プログラミングを用いて、制御文献から6つのユニークな環境で動作可能な、高度に一般化されたエージェントを進化させる。
進化するプログラムにおける創発的階層構造は、時間分解とメモリ上の問題環境の符号化を成功させるマルチタスクエージェントをもたらすことを示す。
論文 参考訳(メタデータ) (2021-06-23T21:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。