論文の概要: Market Regime Council for Dynamic Credit Assignment in Multi-Agent LLM Decision Systems
- arxiv url: http://arxiv.org/abs/2605.24490v1
- Date: Sat, 23 May 2026 09:41:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.126866
- Title: Market Regime Council for Dynamic Credit Assignment in Multi-Agent LLM Decision Systems
- Title(参考訳): マルチエージェントLCM決定システムにおける動的クレジット割り当ての市場規制協議会
- Authors: Yunhua Pei, Zerui Ge, Jin Zheng, John Cartlidge,
- Abstract要約: 本稿では,一対一の,一対の,一対の,一対の,一対の,一意の,正確なシャプリークレジットを計算できる協調型マルチエージェント決定システムを提案する。
13の暗号資産と5つのシードで1,037日以上取引され、MRCはシャープ比1.51、累積リターン440.1%を達成した。
- 参考スコア(独自算出の注目度): 13.214424787265749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent LLM decision systems for portfolio management still lack a principled way to assign credit across specialist agents, remain vulnerable to cold-start dominance under regime shifts, and offer limited transparency into how final allocations are formed. We propose Market Regime Council (MRC), a cooperative multi-agent decision system that computes exact Shapley credits across all single, pairwise, and Grand-coalition outputs for online agent weighting. Instantiated with N=3 specialist agents, at each trading period, MRC recomputes coalition-based Shapley weights from exponentially weighted performance histories, uses a Bayesian adaptive mixture to stabilize early periods, applies regime-dependent multipliers to adjust agent authority, and records each rebalance through a five-layer causal trace. Over 1,037 trading days across 13 crypto assets and five seeds, MRC achieves a Sharpe ratio of 1.51 and a cumulative return of 440.1%, ranking first on CR, SR, and IR among active baselines and attaining the lowest MDD among active methods. Ablation results show that the gains come from Shapley-weighted integration across coalition outputs rather than from any single stage in isolation. Code and demo data are included in the supplementary material.
- Abstract(参考訳): ポートフォリオ管理のためのマルチエージェントのLCM決定システムは、専門家に信用を割り当てる原則的な方法がなく、体制転換の下で冷戦開始支配に弱いままであり、最終的な割り当ての仕方に関して限定的な透明性を提供する。
我々は、オンラインエージェント重み付けのための単一、ペアワイド、およびグランドコーディションアウトプット全体にわたって正確なシャプリークレジットを算出する、協調的マルチエージェント意思決定システムであるマーケットレジームカウンシル(MRC)を提案する。
N=3の専門家エージェントに確認されたMRCは、各トレーディング期間中に、指数的に重み付けされたパフォーマンス履歴から連立ベースのシェープリー重みを計算し、ベイズ適応混合物を用いて早期の安定化を行い、エージェントの権限を調整するために状態依存乗算器を適用し、各バランスを5層因果トレースで記録する。
13の暗号資産と5つのシードの間で1,037日間にわたって取引され、MRCはシャープ比1.51と累積リターン440.1%を達成し、CR、SR、IRがアクティブベースラインで第1位となり、最も低いMDDを達成した。
アブレーションの結果は、単独のステージからではなく、連立アウトプット間でシャプリー重み付けされた統合によって得られるものであることを示している。
補足資料にはコードとデモデータが含まれている。
関連論文リスト
- Signal or Noise in Multi-Agent LLM-based Stock Recommendations? [0.0]
本稿では,デプロイされたマルチエージェントLLM株式システムであるMarketSenseAIのポートフォリオレベルの検証について紹介する。
このシステムは、4人のスペシャリストを1人のエージェントに誘導し、月々の株式に関する論文を発行し、そのカバー宇宙における各株式の合成を行う。
購入勧告は受動的ベンチマークとランダム選択の両方に価値を加え、内部エージェント構造はエッジのソースについて何を明らかにするのか?
論文 参考訳(メタデータ) (2026-04-19T08:43:31Z) - Coalition Formation in LLM Agent Networks: Stability Analysis and Convergence Guarantees [13.891522069967507]
大規模言語モデル(LLM)エージェントは、戦略的調整を必要とするマルチエージェントシステムにますます配備される。
正式な安定性を保証するヘドニックゲーム理論において,LLMエージェントネットワークにおける連立形成を基礎とする最初の枠組みを提案する。
論文 参考訳(メタデータ) (2026-04-15T19:59:30Z) - Who Deserves the Reward? SHARP: Shapley Credit-based Optimization for Multi-Agent System [29.738672424331398]
本稿では,シェープリーを基盤とした階層型強化政策(SHARP)について紹介する。
SHARPは、主にグローバル放送精度報酬(英語版)とツールプロセス報酬(英語版)を通じて、軌道群全体におけるエージェント固有の利点を正規化することでトレーニングを安定化し、実行効率を向上させる。
実験の結果、SHARPは最近の最先端のベースラインを著しく上回り、シングルエージェントとマルチエージェントのアプローチに対して平均23.66%と14.05%の改善を達成した。
論文 参考訳(メタデータ) (2026-02-09T07:17:28Z) - SAMP-HDRL: Segmented Allocation with Momentum-Adjusted Utility for Multi-agent Portfolio Management via Hierarchical Deep Reinforcement Learning [4.743963988265057]
マルチエージェントポートフォリオ管理のためのMomentum-Adjusted Utilityを用いたセグメンテッドアロケーションを提案する。
このフレームワークは動的資産グループ化を統合し、市場を高品質で通常のサブセットに分割する。
提案手法は,リターン率5%以上,ソルティーノ比5%以上,オメガ比2%以上,ゲイン率を著しく向上させる。
論文 参考訳(メタデータ) (2025-12-28T11:56:39Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model [56.92219181993453]
本稿では,PPOやGRPOなどのオンラインRFT手法をオフ・ポリティクスデータに活用するために,Reincarnating Mix-policy Proximal Policy Gradient (ReMix)を提案する。
ReMix は,(1) 効率的なトレーニングのための更新データ(UTD)比が増大した混成政策勾配,(2) 安定性と柔軟性のトレードオフのバランスをとるためのKL-Convex 政策制約,(3) 効率的な早期学習から安定した改善へのシームレスな移行を実現するための政策再編成の3つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2025-07-09T14:29:45Z) - Decentralised Q-Learning for Multi-Agent Markov Decision Processes with
a Satisfiability Criterion [0.0]
マルチエージェントマルコフ決定過程(MMDP)を解決するための強化学習アルゴリズムを提案する。
目標は、各エージェントの時間平均コストを、指定されたエージェント固有のバウンド以下にすることである。
論文 参考訳(メタデータ) (2023-11-21T13:56:44Z) - AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline
Multi-Agent RL via Alternating Stationary Distribution Correction Estimation [65.4532392602682]
オフライン強化学習(RL)の主な課題の1つは、データ収集ポリシーから逸脱した学習ポリシーから生じる分散シフトである。
これはしばしば、政策改善中のアウト・オブ・ディストリビューション(OOD)アクションを避けることで対処される。
本稿では,定常分布最適化に基づく個別エージェントの集中学習を行うオフラインMARLアルゴリズムAlberDICEを紹介する。
論文 参考訳(メタデータ) (2023-11-03T18:56:48Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。