論文の概要: Improving Confidence in the Estimation of Values and Norms
- arxiv url: http://arxiv.org/abs/2004.01056v1
- Date: Thu, 2 Apr 2020 15:03:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 13:04:32.105350
- Title: Improving Confidence in the Estimation of Values and Norms
- Title(参考訳): 価値と規範の推定に対する信頼度の向上
- Authors: Luciano Cavalcante Siebert, Rijk Mercuur, Virginia Dignum, Jeroen van
den Hoven, Catholijn Jonker
- Abstract要約: 本稿では,AAがシミュレーションされたエージェントの行動に基づいて,シミュレーションされたエージェントの価値と規範を推定できる範囲について分析する。
本研究では,SHAの探索におけるあいまいさを軽減する方法として,探索空間探索に基づく手法と,対実解析に基づく手法の2つを提案する。
- 参考スコア(独自算出の注目度): 3.8323580808203785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous agents (AA) will increasingly be interacting with us in our daily
lives. While we want the benefits attached to AAs, it is essential that their
behavior is aligned with our values and norms. Hence, an AA will need to
estimate the values and norms of the humans it interacts with, which is not a
straightforward task when solely observing an agent's behavior. This paper
analyses to what extent an AA is able to estimate the values and norms of a
simulated human agent (SHA) based on its actions in the ultimatum game. We
present two methods to reduce ambiguity in profiling the SHAs: one based on
search space exploration and another based on counterfactual analysis. We found
that both methods are able to increase the confidence in estimating human
values and norms, but differ in their applicability, the latter being more
efficient when the number of interactions with the agent is to be minimized.
These insights are useful to improve the alignment of AAs with human values and
norms.
- Abstract(参考訳): 自律エージェント(AA)は、日々の生活の中でますます私たちと対話していくでしょう。
aasに付随するメリットは必要ですが、彼らの行動が私たちの価値観や規範と一致していることは不可欠です。
したがって、aaは、相互作用する人間の値と規範を見積もる必要があるが、これはエージェントの振る舞いのみを観察する場合の単純なタスクではない。
本稿では,AAがシミュレーションされた人間エージェント(SHA)の価値と規範を,終末ゲームにおける行動に基づいて推定できる範囲について分析する。
本稿では,SHAの探索におけるあいまいさを軽減する方法として,探索空間探索に基づく手法と,逆解析に基づく手法を提案する。
両手法は人的価値と規範を推定する信頼性を高めることができるが,その適用性には違いがあり,エージェントとの相互作用の回数を最小限に抑える場合,後者の方が効率的であることがわかった。
これらの知見は、AAと人間の価値観と規範の整合性を改善するのに有用である。
関連論文リスト
- SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。
ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。
提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文 参考訳(メタデータ) (2024-11-14T17:53:35Z) - IQA-EVAL: Automatic Evaluation of Human-Model Interactive Question Answering [10.338962367542331]
本稿では,対話型質問応答評価を実現するための自動評価フレームワークIQA-EVALを提案する。
また, LLM を用いた評価エージェント (LEA) を導入し, 人の振る舞いをシミュレートし, IQA モデルとの相互作用を生成する。
本稿では,GPT-4をバックボーンモデルとした評価フレームワークが,IQAタスクにおける人的評価と高い相関性を実現することを示す。
論文 参考訳(メタデータ) (2024-08-24T10:34:20Z) - Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。
文脈特性が人間の信頼行動に大きく影響していることが判明した。
これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:00:05Z) - Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards
and Ethical Behavior in the MACHIAVELLI Benchmark [61.43264961005614]
我々は、50万以上のリッチで多様なシナリオを含む134個のChoose-Your-Own-Adventureゲームのベンチマークを開発する。
我々は、エージェントの傾向をパワー・シーキングと評価し、不使用を生じさせ、倫理的違反を犯す。
以上の結果から,エージェントは有能かつ道徳的に行動できることが示唆された。
論文 参考訳(メタデータ) (2023-04-06T17:59:03Z) - Value Engineering for Autonomous Agents [3.6130723421895947]
従来のアプローチでは、値はエージェント推論の不可欠な構成要素ではなく、世界のいくつかの行動や状態に関連するラベルとして扱われていた。
道徳心理学と社会心理学を基盤とした新たなAMAパラダイムを提案する。
このタイプの規範的推論は、エージェントが規範の道徳的意味を理解することによって、自律的なエージェントに価値認識をもたらすと論じる。
論文 参考訳(メタデータ) (2023-02-17T08:52:15Z) - Comparing Psychometric and Behavioral Predictors of Compliance During
Human-AI Interactions [5.893351309010412]
アダプティブAI研究における一般的な仮説は、信頼への偏見の微妙な違いは、AIからの勧告に従う可能性に大きな影響を及ぼす、というものである。
我々は、コンプライアンスの行動予測者に対して、この種の一般的な尺度をベンチマークする。
これは、初期行動における個人差が、自己報告された信頼態度の違いよりも予測的であるという一般的な性質を示唆している。
論文 参考訳(メタデータ) (2023-02-03T16:56:25Z) - Aligning to Social Norms and Values in Interactive Narratives [89.82264844526333]
我々は、インタラクティブな物語やテキストベースのゲームにおいて、社会的に有益な規範や価値観に沿って行動するエージェントを作成することに注力する。
我々は、特別な訓練を受けた言語モデルに存在する社会的コモンセンス知識を用いて、社会的に有益な値に整合した行動にのみ、その行動空間を文脈的に制限するGAALADエージェントを紹介した。
論文 参考訳(メタデータ) (2022-05-04T09:54:33Z) - ACP++: Action Co-occurrence Priors for Human-Object Interaction
Detection [102.9428507180728]
ヒューマン・オブジェクト・インタラクション(HOI)検出のタスクにおける一般的な問題は、多数のHOIクラスが少数のラベル付き例しか持たないことである。
我々は、人間と物体の相互作用の間に自然の相関関係と反相関が存在することを観察した。
我々は、これらの先行知識を学習し、特に稀なクラスにおいて、より効果的な訓練に活用する手法を提案する。
論文 参考訳(メタデータ) (2021-09-09T06:02:50Z) - Training Value-Aligned Reinforcement Learning Agents Using a Normative
Prior [10.421378728492437]
タスクパフォーマンスの指標のみをフィードバックとして使用することで、タスクを最適に実行するように訓練されたエージェントが、許容される行動や危害を引き起こす社会的規範に違反する可能性がある。
そこで我々は,標準的なタスクパフォーマンス報酬と規範的な行動報酬という2つの報酬信号を持つエージェントを訓練する,価値整合強化学習のアプローチを紹介する。
政策形成手法のバリエーションがこれら2つの報酬源をバランスさせ、効果的かつより規範的であると見なされる政策を生み出す方法を示す。
論文 参考訳(メタデータ) (2021-04-19T17:33:07Z) - Detecting Human-Object Interactions with Action Co-occurrence Priors [108.31956827512376]
人-物間相互作用(HOI)検出タスクにおける一般的な問題は、多数のHOIクラスが少数のラベル付き例しか持たないことである。
我々は、人間と物体の相互作用の間に自然の相関と反相関が存在することを観察した。
我々はこれらの先行知識を学習し、特に稀なクラスにおいてより効果的な訓練に活用する手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T02:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。