Fugu-MT 論文翻訳(概要): Large Language Model Guided Incentive Aware Reward Design for Cooperative Multi-Agent Reinforcement Learning

論文の概要: Large Language Model Guided Incentive Aware Reward Design for Cooperative Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2603.24324v1
Date: Wed, 25 Mar 2026 14:05:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-26 21:06:11.320653
Title: Large Language Model Guided Incentive Aware Reward Design for Cooperative Multi-Agent Reinforcement Learning
Title（参考訳）: 協調型マルチエージェント強化学習のためのインセンティブ・アウェア・リワード設計のための大規模言語モデル
Authors: Dogan Urgun, Gokhan Gungor,
Abstract要約: 本研究では,環境インスツルメンテーションから実行可能な報酬プログラムを合成する自動報酬設計フレームワークを提案する。このフレームワークは, 様々な回廊混雑, ハンドオフ依存性, 構造的非対称性を特徴とする, 4つの異なるオーバークッキングAIレイアウトで評価される。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Designing effective auxiliary rewards for cooperative multi-agent systems remains a precarious task; misaligned incentives risk inducing suboptimal coordination, especially where sparse task feedback fails to provide sufficient grounding. This study introduces an automated reward design framework that leverages large language models to synthesize executable reward programs from environment instrumentation. The procedure constrains candidate programs within a formal validity envelope and evaluates their efficacy by training policies from scratch under a fixed computational budget; selection depends exclusively on the sparse task return. The framework is evaluated across four distinct Overcooked-AI layouts characterized by varied corridor congestion, handoff dependencies, and structural asymmetries. Iterative search generations consistently yield superior task returns and delivery counts, with the most pronounced gains occurring in environments dominated by interaction bottlenecks. Diagnostic analysis of the synthesized shaping components indicates increased interdependence in action selection and improved signal alignment in coordination-intensive tasks. These results demonstrate that the search for objectivegrounded reward programs can mitigate the burden of manual engineering while producing shaping signals compatible with cooperative learning under finite budgets.
Abstract（参考訳）: 協調型マルチエージェントシステムに効果的な補助報酬を設計することは、いまだ不安定な作業であり、不整合インセンティブは、特にまばらなタスクフィードバックが十分な基盤を提供するのに失敗する、最適以下の調整を誘発するリスクを負う。本研究では,環境インスツルメンテーションから実行可能な報酬プログラムを合成するために,大規模言語モデルを活用する自動報酬設計フレームワークを提案する。この手順は、正式な妥当性封筒内の候補プログラムを制限し、一定の計算予算の下で、スクラッチからトレーニングポリシーによって有効性を評価する。このフレームワークは, 様々な回廊混雑, ハンドオフ依存性, 構造的非対称性を特徴とする, 4つの異なるオーバークッキングAIレイアウトで評価される。反復的な検索世代は、相互作用のボトルネックに支配される環境において最も顕著な利益が生じるため、タスクのリターンとデリバリの回数が一貫して向上する。合成成形部品の診断解析により, 動作選択における相互依存性が増大し, 調整集約タスクにおける信号アライメントが向上した。これらの結果から,目標とした報奨プログラムの探索は,有限予算下での協調学習に適合した整形信号を生成しながら,手動工学の負担を軽減することができることが示された。

関連論文リスト

Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2026-02-03T15:32:09Z)
Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文参考訳（メタデータ） (2025-11-10T18:29:54Z)
MEJO: MLLM-Engaged Surgical Triplet Recognition via Inter- and Intra-Task Joint Optimization [52.149337961205624]
手術用三重項認識のためのタスク間最適化とタスク内最適化を両立する枠組みを提案する。タスク間最適化のために、タスク共有およびタスク固有コンポーネントに表現を分解する共有特徴分散学習スキーム(S$2$D)を導入する。タスク内最適化競合に対して,正負の曖昧さを識別・再バランスするコーディネート・グラディエント・ラーニング(CGL)戦略を開発する。
論文参考訳（メタデータ） (2025-09-16T09:48:52Z)
AdaRank: Adaptive Rank Pruning for Enhanced Model Merging [23.649762835129167]
モデルマージは、独立して微調整されたモデルを統合されたフレームワークに統合するための有望なアプローチとして現れている。 AdaRankは、タスクベクトルの最も有用な特異な方向を適応的に選択し、複数のモデルをマージする新しいモデルマージフレームワークである。 AdaRankは、さまざまなバックボーンとタスク数で一貫して最先端のパフォーマンスを実現し、微調整されたモデル間のパフォーマンスギャップを1%近く削減している。
論文参考訳（メタデータ） (2025-03-28T06:49:06Z)
Learning Symbolic Task Decompositions for Multi-Agent Teams [4.509662443000363]
協調型マルチエージェント学習におけるサンプル効率向上のための1つのアプローチは、タスク全体を個々のエージェントに割り当てられるサブタスクに分解することである。本研究では,モデルのない環境との相互作用から最適分解を学習するフレームワークを提案する。本手法はタスク条件付きアーキテクチャを用いて,各サブタスクに対する最適分解と対応するエージェントのポリシーを同時に学習する。
論文参考訳（メタデータ） (2025-02-19T02:24:44Z)
Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文参考訳（メタデータ） (2023-10-29T13:45:07Z)
Unpacking Reward Shaping: Understanding the Benefits of Reward Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文参考訳（メタデータ） (2022-10-18T04:21:25Z)
Composite Learning for Robust and Effective Dense Predictions [81.2055761433725]
マルチタスク学習は、目標タスクを補助タスクと協調的に最適化することで、より優れたモデル一般化を約束する。自己監督型(補助的)タスクと密接な予測(目標)タスクを共同でトレーニングすることで、目標タスクの性能を継続的に向上し、補助タスクのラベル付けの必要性を排除できることが判明した。
論文参考訳（メタデータ） (2022-10-13T17:59:16Z)
Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文参考訳（メタデータ） (2021-04-20T18:16:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。