論文の概要: Select to Perfect: Imitating desired behavior from large multi-agent data
- arxiv url: http://arxiv.org/abs/2405.03735v1
- Date: Mon, 6 May 2024 15:48:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 18:24:15.383546
- Title: Select to Perfect: Imitating desired behavior from large multi-agent data
- Title(参考訳): Select to Perfect: 大規模なマルチエージェントデータから望ましい振る舞いを省略する
- Authors: Tim Franzmeyer, Edith Elkind, Philip Torr, Jakob Foerster, Joao Henriques,
- Abstract要約: AIエージェントのDesired特徴は、望ましいスコアを割り当てることで表現できる。
まず,各エージェントの行動が集団的嗜好性スコアに及ぼす影響を評価する。
本稿では,エージェントの交換値の概念を提案する。これは,個々のエージェントの集団的望ましさスコアへの貢献を定量化するものである。
- 参考スコア(独自算出の注目度): 28.145889065013687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents are commonly trained with large datasets of demonstrations of human behavior. However, not all behaviors are equally safe or desirable. Desired characteristics for an AI agent can be expressed by assigning desirability scores, which we assume are not assigned to individual behaviors but to collective trajectories. For example, in a dataset of vehicle interactions, these scores might relate to the number of incidents that occurred. We first assess the effect of each individual agent's behavior on the collective desirability score, e.g., assessing how likely an agent is to cause incidents. This allows us to selectively imitate agents with a positive effect, e.g., only imitating agents that are unlikely to cause incidents. To enable this, we propose the concept of an agent's Exchange Value, which quantifies an individual agent's contribution to the collective desirability score. The Exchange Value is the expected change in desirability score when substituting the agent for a randomly selected agent. We propose additional methods for estimating Exchange Values from real-world datasets, enabling us to learn desired imitation policies that outperform relevant baselines. The project website can be found at https://tinyurl.com/select-to-perfect.
- Abstract(参考訳): AIエージェントは通常、人間の行動の大規模なデータセットで訓練されている。
しかし、すべての行動が等しく安全あるいは望ましいわけではない。
AIエージェントの所望特性は、個々の振る舞いではなく、集合軌道に割り当てられていると仮定して、所望のスコアを割り当てることによって表現することができる。
例えば、車のインタラクションのデータセットでは、これらのスコアは、発生したインシデントの数に関連しています。
まず、各エージェントの行動が集団的欲求性スコア(例えば、エージェントがインシデントを引き起こす確率)に与える影響を評価する。
これにより、例えば、事故を起こさないエージェントのみを模倣する、ポジティブな効果を持つエージェントを選択的に模倣することができる。
これを実現するために,エージェントの交換値の概念を提案する。
Exchange Valueは、ランダムに選択されたエージェントのエージェントに代わる際の、望ましくないスコアの変化である。
本研究では,実世界のデータセットから交換価値を推定する新たな手法を提案する。
プロジェクトのWebサイトはhttps://tinyurl.com/select-to-perfect.comにある。
関連論文リスト
- Learning responsibility allocations for multi-agent interactions: A differentiable optimization approach with control barrier functions [12.074590482085831]
責任レンズを介して安全なマルチエージェントインタラクションを規定する要因を定式化する。
本稿では,制御障壁関数と微分可能最適化に基づくデータ駆動モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T20:20:41Z) - A decision-theoretic model for a principal-agent collaborative learning problem [0.0]
本稿では,主成分が適切な凝集係数の集合を決定する主成分設定を伴う協調学習フレームワークについて考察する。
提案したフレームワークは安定性と一般化の点でいくつかの利点があるが、主役とエージェントは必ずしもサンプル分布や互いのデータセットの品質を知る必要はない。
論文 参考訳(メタデータ) (2024-09-24T13:08:51Z) - Causal Influence in Federated Edge Inference [34.487472866247586]
本稿では、未ラベルのストリーミングデータを用いて、接続性のある異種エージェントが推論を行う環境について考察する。
不確実性を克服するために、エージェントは、融合センターを通じてローカルな推論を交換することで互いに協力する。
エージェントの関与パターンや核融合センターの方針を反映した様々なシナリオを考察した。
論文 参考訳(メタデータ) (2024-05-02T13:06:50Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z) - AgentCF: Collaborative Learning with Autonomous Language Agents for
Recommender Systems [112.76941157194544]
本稿では,エージェントベースの協調フィルタリングにより,レコメンデータシステムにおけるユーザとイテムのインタラクションをシミュレートするエージェントCFを提案する。
我々は、ユーザだけでなく、アイテムをエージェントとして、創造的に考慮し、両方のエージェントを同時に最適化する協調学習アプローチを開発します。
全体として、最適化されたエージェントは、ユーザ・イテム、ユーザ・ユーザ・ユーザ、アイテム・イテム、集合的インタラクションなど、フレームワーク内での多様なインタラクションの振る舞いを示す。
論文 参考訳(メタデータ) (2023-10-13T16:37:14Z) - AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable
Diffusion Model [69.12623428463573]
AlignDiffは、人間の好みを定量化し、抽象性をカバーし、拡散計画をガイドする新しいフレームワークである。
ユーザがカスタマイズした動作と正確に一致し、効率的に切り替えることができます。
選好マッチング,スイッチング,カバーにおいて,他のベースラインに比べて優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-03T13:53:08Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Emergent Behaviors in Multi-Agent Target Acquisition [0.0]
追従回避ゲームにおける強化学習(RL)を用いたマルチエージェントシステム(MAS)のシミュレーションを行う。
我々は、RL訓練された追跡者のポリシーを2つの異なる(非RL)分析戦略に置き換えることで、異なる敵シナリオを作成する。
このアプローチの斬新さは、基礎となるデータ規則性を明らかにする影響力のある機能セットの作成を伴います。
論文 参考訳(メタデータ) (2022-12-15T15:20:58Z) - Differential Assessment of Black-Box AI Agents [29.98710357871698]
従来知られていたモデルから逸脱したブラックボックスAIエージェントを差分評価する手法を提案する。
我々は,漂流エージェントの現在の挙動と初期モデルの知識の疎度な観察を利用して,アクティブなクエリポリシーを生成する。
経験的評価は、エージェントモデルをスクラッチから再学習するよりも、我々のアプローチの方がはるかに効率的であることを示している。
論文 参考訳(メタデータ) (2022-03-24T17:48:58Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。