Fugu-MT 論文翻訳(概要): Improving Confidence in the Estimation of Values and Norms

論文の概要: Improving Confidence in the Estimation of Values and Norms

arxiv url: http://arxiv.org/abs/2004.01056v1
Date: Thu, 2 Apr 2020 15:03:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-17 13:04:32.105350
Title: Improving Confidence in the Estimation of Values and Norms
Title（参考訳）: 価値と規範の推定に対する信頼度の向上
Authors: Luciano Cavalcante Siebert, Rijk Mercuur, Virginia Dignum, Jeroen van den Hoven, Catholijn Jonker
Abstract要約: 本稿では,AAがシミュレーションされたエージェントの行動に基づいて,シミュレーションされたエージェントの価値と規範を推定できる範囲について分析する。本研究では,SHAの探索におけるあいまいさを軽減する方法として,探索空間探索に基づく手法と,対実解析に基づく手法の2つを提案する。
参考スコア（独自算出の注目度）: 3.8323580808203785
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autonomous agents (AA) will increasingly be interacting with us in our daily lives. While we want the benefits attached to AAs, it is essential that their behavior is aligned with our values and norms. Hence, an AA will need to estimate the values and norms of the humans it interacts with, which is not a straightforward task when solely observing an agent's behavior. This paper analyses to what extent an AA is able to estimate the values and norms of a simulated human agent (SHA) based on its actions in the ultimatum game. We present two methods to reduce ambiguity in profiling the SHAs: one based on search space exploration and another based on counterfactual analysis. We found that both methods are able to increase the confidence in estimating human values and norms, but differ in their applicability, the latter being more efficient when the number of interactions with the agent is to be minimized. These insights are useful to improve the alignment of AAs with human values and norms.
Abstract（参考訳）: 自律エージェント(AA)は、日々の生活の中でますます私たちと対話していくでしょう。 aasに付随するメリットは必要ですが、彼らの行動が私たちの価値観や規範と一致していることは不可欠です。したがって、aaは、相互作用する人間の値と規範を見積もる必要があるが、これはエージェントの振る舞いのみを観察する場合の単純なタスクではない。本稿では,AAがシミュレーションされた人間エージェント(SHA)の価値と規範を,終末ゲームにおける行動に基づいて推定できる範囲について分析する。本稿では,SHAの探索におけるあいまいさを軽減する方法として,探索空間探索に基づく手法と,逆解析に基づく手法を提案する。両手法は人的価値と規範を推定する信頼性を高めることができるが,その適用性には違いがあり,エージェントとの相互作用の回数を最小限に抑える場合,後者の方が効率的であることがわかった。これらの知見は、AAと人間の価値観と規範の整合性を改善するのに有用である。

関連論文リスト

EgoNormia: Benchmarking Physical Social Norm Understanding [52.87904722234434]
我々はEgoNormia $|epsilon|$について紹介する。規範的行動には、安全、プライバシー、プロキシ、丁寧さ、協力、協調/行動、コミュニケーション/相対性という7つのカテゴリが含まれる。私たちの研究は、現在の最先端のビジョン言語モデルは、EgoNormiaで最大45%のスコアで、堅牢なノルム理解を欠いていることを実証しています。
論文参考訳（メタデータ） (2025-02-27T19:54:16Z)
SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文参考訳（メタデータ） (2024-11-14T17:53:35Z)
Beyond correlation: The impact of human uncertainty in measuring the effectiveness of automatic evaluation and LLM-as-a-judge [51.93909886542317]
本稿では,人間の行動と自動評価方法の相違点を,単一の集合相関スコアが明らかにする方法について述べる。本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化結果を提案する。
論文参考訳（メタデータ） (2024-10-03T03:08:29Z)
IQA-EVAL: Automatic Evaluation of Human-Model Interactive Question Answering [10.338962367542331]
本稿では,対話型質問応答評価を実現するための自動評価フレームワークIQA-EVALを提案する。また, LLM を用いた評価エージェント (LEA) を導入し, 人の振る舞いをシミュレートし, IQA モデルとの相互作用を生成する。本稿では,GPT-4をバックボーンモデルとした評価フレームワークが,IQAタスクにおける人的評価と高い相関性を実現することを示す。
論文参考訳（メタデータ） (2024-08-24T10:34:20Z)
Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。文脈特性が人間の信頼行動に大きく影響していることが判明した。これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文参考訳（メタデータ） (2024-07-10T18:00:05Z)
Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark [61.43264961005614]
我々は、50万以上のリッチで多様なシナリオを含む134個のChoose-Your-Own-Adventureゲームのベンチマークを開発する。我々は、エージェントの傾向をパワー・シーキングと評価し、不使用を生じさせ、倫理的違反を犯す。以上の結果から,エージェントは有能かつ道徳的に行動できることが示唆された。
論文参考訳（メタデータ） (2023-04-06T17:59:03Z)
Value Engineering for Autonomous Agents [3.6130723421895947]
従来のアプローチでは、値はエージェント推論の不可欠な構成要素ではなく、世界のいくつかの行動や状態に関連するラベルとして扱われていた。道徳心理学と社会心理学を基盤とした新たなAMAパラダイムを提案する。このタイプの規範的推論は、エージェントが規範の道徳的意味を理解することによって、自律的なエージェントに価値認識をもたらすと論じる。
論文参考訳（メタデータ） (2023-02-17T08:52:15Z)
Comparing Psychometric and Behavioral Predictors of Compliance During Human-AI Interactions [5.893351309010412]
アダプティブAI研究における一般的な仮説は、信頼への偏見の微妙な違いは、AIからの勧告に従う可能性に大きな影響を及ぼす、というものである。我々は、コンプライアンスの行動予測者に対して、この種の一般的な尺度をベンチマークする。これは、初期行動における個人差が、自己報告された信頼態度の違いよりも予測的であるという一般的な性質を示唆している。
論文参考訳（メタデータ） (2023-02-03T16:56:25Z)
Aligning to Social Norms and Values in Interactive Narratives [89.82264844526333]
我々は、インタラクティブな物語やテキストベースのゲームにおいて、社会的に有益な規範や価値観に沿って行動するエージェントを作成することに注力する。我々は、特別な訓練を受けた言語モデルに存在する社会的コモンセンス知識を用いて、社会的に有益な値に整合した行動にのみ、その行動空間を文脈的に制限するGAALADエージェントを紹介した。
論文参考訳（メタデータ） (2022-05-04T09:54:33Z)
ACP++: Action Co-occurrence Priors for Human-Object Interaction Detection [102.9428507180728]
ヒューマン・オブジェクト・インタラクション(HOI)検出のタスクにおける一般的な問題は、多数のHOIクラスが少数のラベル付き例しか持たないことである。我々は、人間と物体の相互作用の間に自然の相関関係と反相関が存在することを観察した。我々は、これらの先行知識を学習し、特に稀なクラスにおいて、より効果的な訓練に活用する手法を提案する。
論文参考訳（メタデータ） (2021-09-09T06:02:50Z)
Training Value-Aligned Reinforcement Learning Agents Using a Normative Prior [10.421378728492437]
タスクパフォーマンスの指標のみをフィードバックとして使用することで、タスクを最適に実行するように訓練されたエージェントが、許容される行動や危害を引き起こす社会的規範に違反する可能性がある。そこで我々は,標準的なタスクパフォーマンス報酬と規範的な行動報酬という2つの報酬信号を持つエージェントを訓練する,価値整合強化学習のアプローチを紹介する。政策形成手法のバリエーションがこれら2つの報酬源をバランスさせ、効果的かつより規範的であると見なされる政策を生み出す方法を示す。
論文参考訳（メタデータ） (2021-04-19T17:33:07Z)
Detecting Human-Object Interactions with Action Co-occurrence Priors [108.31956827512376]
人-物間相互作用(HOI)検出タスクにおける一般的な問題は、多数のHOIクラスが少数のラベル付き例しか持たないことである。我々は、人間と物体の相互作用の間に自然の相関と反相関が存在することを観察した。我々はこれらの先行知識を学習し、特に稀なクラスにおいてより効果的な訓練に活用する手法を提案する。
論文参考訳（メタデータ） (2020-07-17T02:47:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。