論文の概要: Unifying Temporal and Structural Credit Assignment in LLM-Based Multi-Agent Prompt Optimization
- arxiv url: http://arxiv.org/abs/2605.30227v1
- Date: Thu, 28 May 2026 16:57:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.563454
- Title: Unifying Temporal and Structural Credit Assignment in LLM-Based Multi-Agent Prompt Optimization
- Title(参考訳): LLMに基づくマルチエージェントプロンプト最適化における時間的・構造的クレジットアサインメントの統一
- Authors: Wenwu Li, Yuran Song, Mingze Zhao, Bo Jin, Wenhao Li,
- Abstract要約: マルチエージェントシステム(MAS)は、大規模言語モデルに複雑な推論計算タスクに取り組む権限を与える。
既存のブラックボックスは、トラジェクトリレベルの障害を特定のローカルコンポーネントに原因付けるのに苦労する。
我々は、抽出可能なMAS最適化は、誤り信号のアンタングルを解消するために構造的帰納バイアスを必要とすると論じる。
- 参考スコア(独自算出の注目度): 10.37712840622514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Multi-Agent Systems (MAS) empower Large Language Models to tackle complex reasoning tasks through collaborative interaction, optimizing their dynamics remains a formidable challenge due to the discrete, non-differentiable nature of the computation graph and the sparsity of global supervisory signals. Existing black-box optimizers struggle to attribute trajectory-level failure to specific local components, resulting in inefficient, high-variance exploration. We argue that tractable MAS optimization needs structural inductive biases to disentangle error signals. We propose temporal and structural credit assignment, which decomposes the objective along two axes: (i) temporal credit, using state-space bottlenecks to identify critical rounds, and (ii) structural credit, using stationary role policies to isolate agent contributions. Leveraging these decomposed signals, we introduce a discrete, verbalized block coordinate descent algorithm for iterative refinement. Rather than indiscriminate global updates, it alternates between optimizing role prompts and aggregation protocols, using LLM-generated "proxy gradients" to target only the identified weak links. Across diverse reasoning benchmarks, our approach substantially reduces query complexity while improving performance, providing a principled and interpretable path toward self-improving MAS.
- Abstract(参考訳): マルチエージェントシステム(MAS)は、大規模言語モデルに対して、協調的な相互作用を通じて複雑な推論タスクに対処する権限を与えるが、計算グラフの離散的で微分不可能な性質と、グローバルな監視信号の空間性のために、それらのダイナミクスを最適化することは、依然として困難な課題である。
既存のブラックボックスオプティマイザは、軌道レベルの障害を特定の局所成分に原因付けるのに苦労し、非効率で高分散探索をもたらす。
我々は、抽出可能なMAS最適化は、誤り信号のアンタングルを解消するために構造的帰納バイアスを必要とすると論じる。
2つの軸に沿って目的を分解する時間的・構造的な信用割当を提案する。
一 時間的信用、状態空間のボトルネックを利用して重要なラウンドを識別すること、
(ii) エージェントの貢献を隔離するための静止的役割ポリシーを用いた構造的信用。
これらの分解信号を活用することで、離散的かつ言語化されたブロック座標降下アルゴリズムを導入し、反復的精錬を行う。
グローバルな更新を区別しない代わりに、LLMの生成した"プロキシ勾配"を使用して、ロールプロンプトとアグリゲーションプロトコルの最適化を交互に行い、識別された弱いリンクのみをターゲットにする。
多様な推論ベンチマークを通じて,提案手法はクエリの複雑性を大幅に低減し,性能を向上し,自己改善のための原則的かつ解釈可能な経路を提供する。
関連論文リスト
- Counterfactual Credit Policy Optimization for Multi-Agent Collaboration [27.260904103460664]
協調多エージェント大言語モデル(LLM)は、役割を分解し、多様な仮説を集約することで複雑な推論タスクを解くことができる。
本稿では,エージェント固有の学習信号を割り当てるフレームワークであるCCPOを紹介する。
CCPOは、エージェントのコントリビューションを除去して結果をシミュレートする動的反ファクト的ベースラインを構築する。
論文 参考訳(メタデータ) (2026-03-23T04:35:02Z) - CODMAS: A Dialectic Multi-Agent Collaborative Framework for Structured RTL Optimization [5.592208774984063]
CODMASは、構造化弁証法とドメイン認識コード生成と決定論的評価を組み合わせたフレームワークである。
120のVerilogトリプル(最適化されていない、最適化された、テストベンチ)のベンチマークであるRTLOPTを導入し、パイプライン化とクロックゲーティング変換を行った。
論文 参考訳(メタデータ) (2026-03-17T23:10:07Z) - ComAgent: Multi-LLM based Agentic AI Empowered Intelligent Wireless Networks [62.031889234230725]
6Gネットワークは複雑な層間最適化に依存している。
数学の定式化に高レベルの意図を手動で翻訳することは、まだボトルネックである。
我々はマルチLLMエージェントAIフレームワークであるComAgentを紹介する。
論文 参考訳(メタデータ) (2026-01-27T13:43:59Z) - Multi-Objective Hierarchical Optimization with Large Language Models [41.41567058185742]
大規模言語モデル(LLM)は、多目的最適化を推進するための既定の選択肢ではない。
本稿では,このギャップを,構造化階層型探索戦略内での代理モデルと候補サンプルとしてLLMを活用することで解決する。
論文 参考訳(メタデータ) (2026-01-20T12:10:13Z) - Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models [99.85131798240808]
我々はtextitGuided Topology Diffusion (GTD) と呼ばれる新しい生成フレームワークを導入する。
条件付き離散グラフ拡散モデルにインスパイアされたGTD式は、反復的な構成過程としてトポロジー合成を行う。
各ステップで生成は、多目的報酬を予測する軽量プロキシモデルによって制御される。
実験により、GTDは高いタスク適応性、スパース、効率的な通信トポロジを生成できることが示されている。
論文 参考訳(メタデータ) (2025-10-09T05:28:28Z) - LLM4CMO: Large Language Model-aided Algorithm Design for Constrained Multiobjective Optimization [54.35609820607923]
大規模言語モデル(LLM)は、アルゴリズム設計を支援する新しい機会を提供する。
LLM4CMOは,2つの人口構成をもつ2段階のフレームワークをベースとした新しいCMOEAである。
LLMは複雑な進化最適化アルゴリズムの開発において効率的な共同設計者として機能する。
論文 参考訳(メタデータ) (2025-08-16T02:00:57Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - syftr: Pareto-Optimal Generative AI [40.80352098169579]
syftrはエージェントと非エージェントのRAG構成の広い領域で効率的な多目的探索を行うフレームワークである。
Syftrは、最も正確な流れの正確さを保ちながら、平均して9倍のコストで流れを見つける。
論文 参考訳(メタデータ) (2025-05-26T17:43:13Z) - LIFT: Latent Implicit Functions for Task- and Data-Agnostic Encoding [4.759109475818876]
Implicit Neural Representations (INR)は、多様なデータドメインをまたいだタスクモデリングを統合するための強力なパラダイムであることが証明されている。
本稿では,メタラーニングによるマルチスケール情報をキャプチャする新しい高性能フレームワークLIFTを紹介する。
また、残差接続と表現頻度符号化を組み込んだLIFTの強化版であるReLIFTについても紹介する。
論文 参考訳(メタデータ) (2025-03-19T17:00:58Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。