論文の概要: Don't lie to your friends: Learning what you know from collaborative self-play
- arxiv url: http://arxiv.org/abs/2503.14481v1
- Date: Tue, 18 Mar 2025 17:53:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:17:49.141146
- Title: Don't lie to your friends: Learning what you know from collaborative self-play
- Title(参考訳): 友人に嘘をつかない:協力的な自己プレイから知っていることを学ぶ
- Authors: Jacob Eisenstein, Reza Aghajani, Adam Fisch, Dheeru Dua, Fantine Huot, Mirella Lapata, Vicky Zayats, Jonathan Berant,
- Abstract要約: 我々は、AIエージェントが知っていることを教えるために、根本的に新しいアプローチを提案する。
我々は,集団が正解に到達して報奨を受けるマルチエージェントコラボレーションを構築した。
望ましいメタ知識は、相互作用の構造に組み込まれたインセンティブから生まれる。
- 参考スコア(独自算出の注目度): 90.35507959579331
- License:
- Abstract: To be helpful assistants, AI agents must be aware of their own capabilities and limitations. This includes knowing when to answer from parametric knowledge versus using tools, when to trust tool outputs, and when to abstain or hedge. Such capabilities are hard to teach through supervised fine-tuning because they require constructing examples that reflect the agent's specific capabilities. We therefore propose a radically new approach to teaching agents what they know: \emph{collaborative self-play}. We construct multi-agent collaborations in which the group is rewarded for collectively arriving at correct answers. The desired meta-knowledge emerges from the incentives built into the structure of the interaction. We focus on small societies of agents that have access to heterogeneous tools (corpus-specific retrieval), and therefore must collaborate to maximize their success while minimizing their effort. Experiments show that group-level rewards for multi-agent communities can induce policies that \emph{transfer} to improve tool use and selective prediction in settings where individual agents are deployed in isolation.
- Abstract(参考訳): アシスタントとして役立つためには、AIエージェントは自身の能力と限界を認識しなければならない。
これには、パラメトリックな知識から答えるタイミングとツールの使用、ツールのアウトプットを信頼するタイミング、禁じるか、ヘッジするかを知ることが含まれる。
このような能力は、エージェントの特定の能力を反映した構築例を必要とするため、教師付き微調整を通して教えることが難しい。
そこで我々は,エージェントが知っていること: 「emph{collaborative self-play}」を教えるために,根本的に新しいアプローチを提案する。
我々は,集団が正解に到達して報奨を受けるマルチエージェントコラボレーションを構築した。
望ましいメタ知識は、相互作用の構造に組み込まれたインセンティブから生まれる。
我々は、異種ツール(企業固有の検索)にアクセス可能なエージェントの小さな社会に焦点を当て、その努力を最小化しながら、彼らの成功を最大化するために協力する必要がある。
実験により、マルチエージェントコミュニティに対するグループレベルの報酬は、ツールの使用を改善するために \emph{transfer} のポリシーを誘導し、個々のエージェントが独立してデプロイされる設定で選択的な予測を行うことができることが示された。
関連論文リスト
- Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - Peer Learning: Learning Complex Policies in Groups from Scratch via Action Recommendations [16.073203911932872]
ピアラーニングは、グループで学ぶエージェントのための新しい高度な強化学習フレームワークである。
ピアラーニングは,OpenAI Gymドメインのいくつかの課題において,単一エージェント学習とベースラインを上回り得ることを示す。
論文 参考訳(メタデータ) (2023-12-15T17:01:35Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - AgentVerse: Facilitating Multi-Agent Collaboration and Exploring
Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。
実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。
これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2023-08-21T16:47:11Z) - Learning to Learn Group Alignment: A Self-Tuning Credo Framework with
Multiagent Teams [1.370633147306388]
マルチエージェントチームを持つ人口の混合インセンティブは、完全に協調したシステムよりも有利であることが示されている。
個人学習エージェントが報酬関数の様々な部分を通してインセンティブの構成を自己制御する枠組みを提案する。
論文 参考訳(メタデータ) (2023-04-14T18:16:19Z) - ELIGN: Expectation Alignment as a Multi-Agent Intrinsic Reward [29.737986509769808]
本稿では,自己監督型固有報酬ELIGN-期待アライメントを提案する。
動物が周囲の動物と分散的に協力するのと同じように、期待アライメントで訓練されたエージェントは、隣人の期待に合う行動を学ぶ。
エージェント・コーディネーションは、エージェントがタスクを個別に分割し、コーディネーション・対称性を破り、敵を混乱させ、予測アライメントを通じて改善することを示す。
論文 参考訳(メタデータ) (2022-10-09T22:24:44Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Learning to Cooperate with Unseen Agent via Meta-Reinforcement Learning [4.060731229044571]
アドホックなチームワーク問題は、エージェントが共通の目標を達成するために、以前は目に見えないエージェントと協力しなければならない状況を記述する。
エージェントの振る舞いを設計するためにドメイン知識を使用することで、エージェントに協調的なスキルを実装することができる。
本稿では,メタ強化学習(meta-RL)の定式化をアドホックなチームワーク問題に応用する。
論文 参考訳(メタデータ) (2021-11-05T12:01:28Z) - BGC: Multi-Agent Group Belief with Graph Clustering [1.9949730506194252]
エージェントがコミュニケーションなしで情報を交換できる半通信方式を提案する。
近接するエージェントを小さなグループに分割し,グループ内のエージェントの信念を最小化するグループベースのモジュールを提案する。
その結果,提案手法はSMACベンチマークの大幅な改善を実現していることがわかった。
論文 参考訳(メタデータ) (2020-08-20T07:07:20Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。