論文の概要: The End of Reward Engineering: How LLMs Are Redefining Multi-Agent Coordination
- arxiv url: http://arxiv.org/abs/2601.08237v1
- Date: Tue, 13 Jan 2026 05:47:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.073254
- Title: The End of Reward Engineering: How LLMs Are Redefining Multi-Agent Coordination
- Title(参考訳): リワードエンジニアリングの終わり - LLMがマルチエージェントコーディネーションをどのように定義するか
- Authors: Haoran Su, Yandong Sun, Congjia Yu,
- Abstract要約: 大規模言語モデルの最近の進歩は、手作りの数値報酬から言語に基づく客観的仕様へのシフトをめざしていると論じる。
我々は,この遷移を,意味的報酬仕様,動的報酬適応,人間の意図との整合性の改善という3つの側面に沿って概念化する。
- 参考スコア(独自算出の注目度): 0.9099663022952496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward engineering, the manual specification of reward functions to induce desired agent behavior, remains a fundamental challenge in multi-agent reinforcement learning. This difficulty is amplified by credit assignment ambiguity, environmental non-stationarity, and the combinatorial growth of interaction complexity. We argue that recent advances in large language models (LLMs) point toward a shift from hand-crafted numerical rewards to language-based objective specifications. Prior work has shown that LLMs can synthesize reward functions directly from natural language descriptions (e.g., EUREKA) and adapt reward formulations online with minimal human intervention (e.g., CARD). In parallel, the emerging paradigm of Reinforcement Learning from Verifiable Rewards (RLVR) provides empirical evidence that language-mediated supervision can serve as a viable alternative to traditional reward engineering. We conceptualize this transition along three dimensions: semantic reward specification, dynamic reward adaptation, and improved alignment with human intent, while noting open challenges related to computational overhead, robustness to hallucination, and scalability to large multi-agent systems. We conclude by outlining a research direction in which coordination arises from shared semantic representations rather than explicitly engineered numerical signals.
- Abstract(参考訳): 報酬関数のマニュアル仕様であるリワードエンジニアリングは,マルチエージェント強化学習における基本的な課題である。
この難しさは、クレジット割り当ての曖昧さ、環境非定常性、相互作用の複雑さの組合せ的成長によって増幅される。
近年の大規模言語モデル(LLM)の進歩は,手作りの数値報酬から言語に基づく客観的仕様へと移行しつつある。
以前の研究は、LLMが自然言語記述(例えばEUREKA)から直接報酬関数を合成し、最小限の人間の介入(例えばCARD)で報酬の定式化をオンラインで適用できることを示していた。
並行して、Reinforcement Learning from Verifiable Rewards (RLVR) の新たなパラダイムは、言語による監督が従来の報酬工学の代替となるという実証的な証拠を提供する。
我々は,この変化を,意味的報酬仕様,動的報酬適応,人間の意図との整合性の向上という3つの側面に沿って概念化し,計算オーバーヘッド,幻覚への堅牢性,大規模マルチエージェントシステムへの拡張性といったオープンな課題に言及する。
数値信号を明示的に設計するのではなく,共有意味表現からコーディネーションが生じる研究の方向性を概説して結論付ける。
関連論文リスト
- LinguaFluid: Language Guided Fluid Control via Semantic Rewards in Reinforcement Learning [0.7864304771129751]
本研究では,現在状態と目標意味的指示とを一致させて報酬を計算できる意味的整合強化学習手法を提案する。
我々は,手作りの報酬関数がなくても,意味報酬は学習を指導して,競争力のある制御動作を実現することができることを示した。
このフレームワークは、エージェントの振る舞いを自然言語の目標と整合させるための新たな地平を開き、より大きな言語モデルのよりシームレスな統合の基礎となる。
論文 参考訳(メタデータ) (2025-08-08T03:23:56Z) - Incentivizing Multimodal Reasoning in Large Models for Direct Robot Manipulation [89.5123417007126]
空間的行動空間をLMM(Large Multimodal Models)に理解させる方法について述べる。
また,これらの課題を解決する上で,LMMの推論能力を完全に活用する方法を示す。
その結果、ReasonManipという名前の7Bバックボーン上に構築された推論モデルは、3つの顕著な利点を示しています。
論文 参考訳(メタデータ) (2025-05-19T06:00:14Z) - EAGER-LLM: Enhancing Large Language Models as Recommenders through Exogenous Behavior-Semantic Integration [60.47645731801866]
大規模言語モデル(LLM)は、高度なレコメンデータシステムの基本バックボーンとしてますます活用されている。
LLMは事前訓練された言語意味論であるが、llm-Backboneを通してゼロから協調意味論を学ぶ。
内因性行動情報と内因性行動情報とを非侵襲的に統合するデコーダのみの生成推薦フレームワークであるEAGER-LLMを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:01:57Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Weakly Supervised Disentangled Representation for Goal-conditioned
Reinforcement Learning [15.698612710580447]
本稿では,サンプル効率の向上と政策一般化を目的としたスキル学習フレームワークDR-GRLを提案する。
本稿では,解釈可能かつ制御可能な表現を学習するための空間変換オートエンコーダ(STAE)を提案する。
DR-GRLは, 試料効率と政策一般化において, 従来の手法よりも有意に優れていたことを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-28T09:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。