論文の概要: Adversarially Guided Self-Play for Adopting Social Conventions
- arxiv url: http://arxiv.org/abs/2001.05994v2
- Date: Wed, 7 Oct 2020 20:41:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 00:58:16.516981
- Title: Adversarially Guided Self-Play for Adopting Social Conventions
- Title(参考訳): ソーシャル・コンベンション導入のためのアドバイザリガイド型セルフプレイ
- Authors: Mycal Tucker, Yilun Zhou, Julie Shah
- Abstract要約: 我々は、学習可能なポリシーの空間を形成するために、Adversarial Self-Play (ASP)を導入します。
ASPは、未ペアデータの追加のみを必要とする。ソーシャルコンベンションによって生成された出力のデータセットで、関連する入力を含まない。
ペアのデータポイントが2つしか与えられていない場合に、望ましい社会慣行とより緊密に一致するモデルを生成する。
- 参考スコア(独自算出の注目度): 8.387880803275134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic agents must adopt existing social conventions in order to be
effective teammates. These social conventions, such as driving on the right or
left side of the road, are arbitrary choices among optimal policies, but all
agents on a successful team must use the same convention. Prior work has
identified a method of combining self-play with paired input-output data
gathered from existing agents in order to learn their social convention without
interacting with them. We build upon this work by introducing a technique
called Adversarial Self-Play (ASP) that uses adversarial training to shape the
space of possible learned policies and substantially improves learning
efficiency. ASP only requires the addition of unpaired data: a dataset of
outputs produced by the social convention without associated inputs.
Theoretical analysis reveals how ASP shapes the policy space and the
circumstances (when behaviors are clustered or exhibit some other structure)
under which it offers the greatest benefits. Empirical results across three
domains confirm ASP's advantages: it produces models that more closely match
the desired social convention when given as few as two paired datapoints.
- Abstract(参考訳): ロボットエージェントは、効果的なチームメイトになるために、既存の社会的慣例を採用しなければならない。
道路の右側や左側を運転するといったこれらの社会的慣例は、最適な政策の任意の選択であるが、成功するチームのすべてのエージェントは、同じ慣例を使わなければならない。
先行研究は、自己再生と既存のエージェントから収集されたペアの入出力データを組み合わせて、彼らと対話することなく社会的慣習を学ぶ方法を特定した。
そこで我々は,学習方針の空間形成と学習効率の大幅な向上を目的とした,adversarial self-play(asp)と呼ばれる手法を導入することで,この課題を克服する。
aspは、入力を伴わない社会条約で生成された出力のデータセットであるunpairedデータの追加のみを必要とする。
理論的分析は、ASPがポリシー空間と状況(振る舞いがクラスタ化されたり、他の構造を示す場合)をどのように形成するかを明らかにします。
3つのドメインにわたる実証的な結果は、aspの利点を裏付ける: 2つ以上のペアデータポイントが与えられた場合に、望ましい社会的慣習により密接にマッチするモデルを生成する。
関連論文リスト
- Social Interpretable Reinforcement Learning [4.242435932138821]
SIRL(Social Interpretable RL)は、学習効率を向上させるための社会学習原則に着想を得たものである。
6つのよく知られたベンチマークの結果から、SIRLは最先端の性能に達することが示された。
論文 参考訳(メタデータ) (2024-01-27T19:05:21Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - Training Socially Aligned Language Models on Simulated Social
Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。
現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。
本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:17:36Z) - Adversarial Representation Sharing: A Quantitative and Secure
Collaborative Learning Framework [3.759936323189418]
コミュニケーションのオーバーヘッドが低く,タスク依存度が低いため,共同学習において表現学習には独特なアドバンテージがあることがわかった。
ARSは、ユーザがモデルを訓練するためにデータの表現を共有する協調学習フレームワークである。
我々は,本機構がモデル逆攻撃に対して有効であることを実証し,プライバシとユーティリティのバランスを実現する。
論文 参考訳(メタデータ) (2022-03-27T13:29:15Z) - Exploiting Data Sparsity in Secure Cross-Platform Social Recommendation [34.60672247558132]
社会的レコメンデーションは従来のシステムよりも有望な改善を示している。
既存の作業の多くは、すべてのデータがレコメンデーションプラットフォームで利用可能であると仮定している。
本稿では,セキュアなクロスプラットフォームソーシャルレコメンデーションフレームワークであるS3Recを提案する。
論文 参考訳(メタデータ) (2022-02-15T08:46:34Z) - Collective eXplainable AI: Explaining Cooperative Strategies and Agent
Contribution in Multiagent Reinforcement Learning with Shapley Values [68.8204255655161]
本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。
結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2021-10-04T10:28:57Z) - Social Processes: Self-Supervised Forecasting of Nonverbal Cues in
Social Conversations [22.302509912465077]
我々は、社会的人間関係の分野におけるボトムアップな自己監督的アプローチの方向への第一歩を踏み出す。
ソーシャルキュー予測のタスクを定式化し、ラベルなしの低レベル行動キューを多量に活用する。
本稿では,ニューラル・プロセス(NP)ファミリー内における社会的に認識されるシーケンス・ツー・シーケンス(Seq2Seq)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-28T18:01:08Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z) - ConCET: Entity-Aware Topic Classification for Open-Domain Conversational
Agents [9.870634472479571]
ConCET: Concurrent Entity-aware conversational Topic Classifierを紹介する。
本稿では,合成学習データを生成するための簡便で効果的な手法を提案する。
我々はAmazon Alexa Prizeの一部として収集された実際のユーザとの人間と機械の会話の大規模なデータセットでConCETを評価した。
論文 参考訳(メタデータ) (2020-05-28T06:29:08Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。