論文の概要: Value Alignment Verification
- arxiv url: http://arxiv.org/abs/2012.01557v1
- Date: Wed, 2 Dec 2020 22:04:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 03:50:15.855510
- Title: Value Alignment Verification
- Title(参考訳): 値アライメントの検証
- Authors: Daniel S. Brown, Jordan Schneider, Scott Niekum
- Abstract要約: 人間は自律的なエージェントと対話し、ますます複雑でリスクの高いタスクを実行する。
人間はこれらのエージェントの信頼性を検証し、その性能と正しさを効率的に評価することが重要である。
- 参考スコア(独自算出の注目度): 30.944275939848907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As humans interact with autonomous agents to perform increasingly
complicated, potentially risky tasks, it is important that humans can verify
these agents' trustworthiness and efficiently evaluate their performance and
correctness. In this paper we formalize the problem of value alignment
verification: how to efficiently test whether the goals and behavior of another
agent are aligned with a human's values? We explore several different value
alignment verification settings and provide foundational theory regarding value
alignment verification. We study alignment verification problems with an
idealized human that has an explicit reward function as well as value alignment
verification problems where the human has implicit values. Our theoretical and
empirical results in both a discrete grid navigation domain and a continuous
autonomous driving domain demonstrate that it is possible to synthesize highly
efficient and accurate value alignment verification tests for certifying the
alignment of autonomous agents.
- Abstract(参考訳): 人間は自律的なエージェントと対話し、ますます複雑で潜在的に危険なタスクを実行するため、これらのエージェントの信頼性を検証し、そのパフォーマンスと正確性を評価することが重要である。
本稿では,他のエージェントの目標と行動が人間の値と一致しているかどうかを効率的に検証する方法について,価値アライメント検証の問題を定式化する。
いくつかの異なる値アライメント検証設定を検討し、値アライメント検証に関する基礎理論を提供する。
本研究では,明示的な報酬機能を持つ理想化人間によるアライメント検証問題と,人間が暗黙の値を持つ値アライメント検証問題について検討する。
離散グリッドナビゲーションドメインと連続自律運転ドメインの両方における理論的および実証的な結果は、自律エージェントのアライメントを認証するための高効率で正確な値アライメント検証テストを合成できることを実証する。
関連論文リスト
- MAP: Multi-Human-Value Alignment Palette [22.74688073469946]
我々はMulti-Human-Value Alignment Palette(MAP)と呼ばれる新しい第一原理的アプローチを開発した。
MAPは、構造化され信頼性の高い方法で、複数の人間の値にまたがるアライメントをナビゲートする。
我々は、値間のトレードオフ、制約に対する感度、多値アライメントとシーケンシャルアライメントの基本的な関係を定量化し、線形重み付き報酬が多値アライメントに十分であることを示すことにより、MAPの詳細な理論的解析を行う。
論文 参考訳(メタデータ) (2024-10-24T23:16:39Z) - What If the Input is Expanded in OOD Detection? [77.37433624869857]
Out-of-distriion (OOD) 検出は未知のクラスからのOOD入力を特定することを目的としている。
In-distriion(ID)データと区別するために,様々なスコアリング関数を提案する。
入力空間に異なる共通の汚職を用いるという、新しい視点を導入する。
論文 参考訳(メタデータ) (2024-10-24T06:47:28Z) - On the Definition of Appropriate Trust and the Tools that Come with it [0.0]
本稿は文献からの適切な信頼の定義から始まる。
定義とモデル性能評価を比較し、適切な信頼とモデル性能評価の強い類似性を示す。
本稿では,不確実性の測定方法や回帰の適切な信頼度など,ユーザパフォーマンスのさまざまな側面に対する簡易な評価手法を提案する。
論文 参考訳(メタデータ) (2023-09-21T09:52:06Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - Zero-shot Faithful Factual Error Correction [53.121642212060536]
事実の誤りを忠実に訂正することは、テキストの知識基盤の整合性を維持し、シーケンス・ツー・シーケンス・モデルにおける幻覚を防ぐために重要である。
提案するゼロショットフレームワークは,入力クレームに関する質問を定式化し,与えられたエビデンスにおける正しい回答を求め,そのエビデンスとの整合性に基づいて各補正の忠実さを評価する。
論文 参考訳(メタデータ) (2023-05-13T18:55:20Z) - Trust, but Verify: Using Self-Supervised Probing to Improve
Trustworthiness [29.320691367586004]
我々は、訓練されたモデルに対する自信の過剰な問題をチェックおよび緩和することのできる、自己教師型探索の新しいアプローチを導入する。
既存の信頼性関連手法に対して,プラグイン・アンド・プレイ方式で柔軟に適用可能な,シンプルで効果的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-06T08:57:20Z) - The Linguistic Blind Spot of Value-Aligned Agency, Natural and
Artificial [0.0]
言語コミュニケーション(自然言語)は、ロバストな価値アライメントに必要な条件である、と私は主張する。
この主張の真相は、AIシステムの価値アライメントを確実にする研究プログラムに当てはまるという結果について議論する。
論文 参考訳(メタデータ) (2022-07-02T15:47:33Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Training Value-Aligned Reinforcement Learning Agents Using a Normative
Prior [10.421378728492437]
タスクパフォーマンスの指標のみをフィードバックとして使用することで、タスクを最適に実行するように訓練されたエージェントが、許容される行動や危害を引き起こす社会的規範に違反する可能性がある。
そこで我々は,標準的なタスクパフォーマンス報酬と規範的な行動報酬という2つの報酬信号を持つエージェントを訓練する,価値整合強化学習のアプローチを紹介する。
政策形成手法のバリエーションがこれら2つの報酬源をバランスさせ、効果的かつより規範的であると見なされる政策を生み出す方法を示す。
論文 参考訳(メタデータ) (2021-04-19T17:33:07Z) - Robust Learning Through Cross-Task Consistency [92.42534246652062]
クロスタスク整合性を用いた学習向上のための,広く適用可能な完全計算手法を提案する。
クロスタスク一貫性による学習は,より正確な予測と,アウト・オブ・ディストリビューション・インプットの一般化につながることを観察する。
論文 参考訳(メタデータ) (2020-06-07T09:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。