論文の概要: Selective imitation on the basis of reward function similarity
- arxiv url: http://arxiv.org/abs/2305.07421v1
- Date: Fri, 12 May 2023 12:40:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 12:57:31.359750
- Title: Selective imitation on the basis of reward function similarity
- Title(参考訳): 報酬関数の類似性に基づく選択的模倣
- Authors: Max Taylor-Davies, Stephanie Droop, Christopher G. Lucas
- Abstract要約: 模倣は人間の社会的行動の重要な要素である。
我々は、自分に類似した報酬機能を持つと考える他人の行動を、人々が優先的に模倣すると主張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation is a key component of human social behavior, and is widely used by
both children and adults as a way to navigate uncertain or unfamiliar
situations. But in an environment populated by multiple heterogeneous agents
pursuing different goals or objectives, indiscriminate imitation is unlikely to
be an effective strategy -- the imitator must instead determine who is most
useful to copy. There are likely many factors that play into these judgements,
depending on context and availability of information. Here we investigate the
hypothesis that these decisions involve inferences about other agents' reward
functions. We suggest that people preferentially imitate the behavior of others
they deem to have similar reward functions to their own. We further argue that
these inferences can be made on the basis of very sparse or indirect data, by
leveraging an inductive bias toward positing the existence of different
\textit{groups} or \textit{types} of people with similar reward functions,
allowing learners to select imitation targets without direct evidence of
alignment.
- Abstract(参考訳): イミテーションは人間の社会的行動の重要な要素であり、不確実または不慣れな状況をナビゲートする方法として、子供と大人の両方で広く利用されている。
しかし、異なる目標や目的を追求する複数の異種エージェントが居住している環境では、無差別な模倣は効果的な戦略とはならない。
これらの判断に影響を及ぼす要因は、おそらく、情報のコンテキストや可用性に依存する。
本稿では,これらの決定が他のエージェントの報酬機能に関する推論を伴うという仮説を考察する。
我々は、自分に類似した報酬機能を持つと考える他人の行動を、人々が優先的に模倣することを提案する。
さらに、これらの推論は、類似の報酬関数を持つ人の異なる \textit{groups} や \textit{types} の存在を仮定する帰納的バイアスを生かし、学習者がアライメントの直接的な証拠なしに模倣対象を選択することによって、非常にスパースまたは間接的なデータに基づいて行うことができると論じる。
関連論文リスト
- Using Contrastive Learning with Generative Similarity to Learn Spaces that Capture Human Inductive Biases [9.63129238638334]
人間は、少数の例から学び、感覚データから有用な情報を抽象化するために、強い帰納バイアスに頼る。
本稿では, 2つのデータポイントが同一分布からサンプリングされた場合, 2つのデータポイントが類似していると考えられる生成的類似性の概念を提案する。
生成的類似性は、その正確な形が難解である場合でも、対照的な学習目標を定義するのに有効であることを示す。
論文 参考訳(メタデータ) (2024-05-29T18:01:58Z) - Select to Perfect: Imitating desired behavior from large multi-agent data [28.145889065013687]
AIエージェントのDesired特徴は、望ましいスコアを割り当てることで表現できる。
まず,各エージェントの行動が集団的嗜好性スコアに及ぼす影響を評価する。
本稿では,エージェントの交換値の概念を提案する。これは,個々のエージェントの集団的望ましさスコアへの貢献を定量化するものである。
論文 参考訳(メタデータ) (2024-05-06T15:48:24Z) - A Generalized Acquisition Function for Preference-based Reward Learning [12.158619866176487]
優先度に基づく報酬学習は、ロボットや自律システムに対して、人間がタスクを実行したいと望む方法を教えるための一般的なテクニックである。
従来の研究では、報酬関数パラメータに関する情報獲得を最大化するために、嗜好クエリを積極的に合成することで、データ効率が向上することが示されている。
本研究では, 報酬関数を行動同値クラスまで学習するためには, 行動上の同一ランク付け, 選択上の分布, その他の関連する2つの報酬の類似性の定義などの最適化が可能であることを示す。
論文 参考訳(メタデータ) (2024-03-09T20:32:17Z) - Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。
フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-07-24T17:50:24Z) - SIRL: Similarity-based Implicit Representation Learning [44.71701661851492]
ユーザに対して,同じような振る舞いを問うことで,表現をチューニングできることが示される。
これにより、ロボットは、表現に進む必要のあるものと、刺激的なものとをあいまいにすることができる。
論文 参考訳(メタデータ) (2023-01-02T18:59:59Z) - Flexible social inference facilitates targeted social learning when
rewards are not observable [58.762004496858836]
グループは、個人が他人の成功から学べるときにより効果的にコーディネートする。
社会的推論能力は、このギャップを埋める助けとなり、個人が他人の基本的な知識に対する信念を更新し、観察可能な行動軌跡から成功することを示唆する。
論文 参考訳(メタデータ) (2022-12-01T21:04:03Z) - Inferring Lexicographically-Ordered Rewards from Preferences [82.42854687952115]
本稿では,エージェントの観察された嗜好の多目的報酬に基づく表現を推定する手法を提案する。
我々は,異なる目的に対するエージェントの優先順位を語彙的入力としてモデル化することにより,エージェントがより高い優先順位を持つ目的に対して無関心である場合に限って,より低い優先順位を持つ目的が重要となるようにした。
論文 参考訳(メタデータ) (2022-02-21T12:01:41Z) - Policy Fusion for Adaptive and Customizable Reinforcement Learning
Agents [137.86426963572214]
異なる行動政策を結合して有意義な「融合」政策を得る方法を示す。
事前学習されたポリシーを組み合わせるための4つの異なるポリシー融合手法を提案する。
これらの手法がゲーム制作や設計に実際どのように役立つのか,実例とユースケースをいくつか紹介する。
論文 参考訳(メタデータ) (2021-04-21T16:08:44Z) - Action similarity judgment based on kinematic primitives [48.99831733355487]
運動学に基づく計算モデルが動作類似性を決定する範囲について検討する。
選択されたモデルは、発達ロボティクスにルーツを持ち、学習されたキネマティックプリミティブに基づいて行動分類を行う。
その結果, 動作類似性タスクにおいて, モデルと人的性能の双方が, 運動レベルの特徴に基づく精度が高いことがわかった。
論文 参考訳(メタデータ) (2020-08-30T13:58:47Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。