論文の概要: Value Alignment Verification
- arxiv url: http://arxiv.org/abs/2012.01557v1
- Date: Wed, 2 Dec 2020 22:04:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 03:50:15.855510
- Title: Value Alignment Verification
- Title(参考訳): 値アライメントの検証
- Authors: Daniel S. Brown, Jordan Schneider, Scott Niekum
- Abstract要約: 人間は自律的なエージェントと対話し、ますます複雑でリスクの高いタスクを実行する。
人間はこれらのエージェントの信頼性を検証し、その性能と正しさを効率的に評価することが重要である。
- 参考スコア(独自算出の注目度): 30.944275939848907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As humans interact with autonomous agents to perform increasingly
complicated, potentially risky tasks, it is important that humans can verify
these agents' trustworthiness and efficiently evaluate their performance and
correctness. In this paper we formalize the problem of value alignment
verification: how to efficiently test whether the goals and behavior of another
agent are aligned with a human's values? We explore several different value
alignment verification settings and provide foundational theory regarding value
alignment verification. We study alignment verification problems with an
idealized human that has an explicit reward function as well as value alignment
verification problems where the human has implicit values. Our theoretical and
empirical results in both a discrete grid navigation domain and a continuous
autonomous driving domain demonstrate that it is possible to synthesize highly
efficient and accurate value alignment verification tests for certifying the
alignment of autonomous agents.
- Abstract(参考訳): 人間は自律的なエージェントと対話し、ますます複雑で潜在的に危険なタスクを実行するため、これらのエージェントの信頼性を検証し、そのパフォーマンスと正確性を評価することが重要である。
本稿では,他のエージェントの目標と行動が人間の値と一致しているかどうかを効率的に検証する方法について,価値アライメント検証の問題を定式化する。
いくつかの異なる値アライメント検証設定を検討し、値アライメント検証に関する基礎理論を提供する。
本研究では,明示的な報酬機能を持つ理想化人間によるアライメント検証問題と,人間が暗黙の値を持つ値アライメント検証問題について検討する。
離散グリッドナビゲーションドメインと連続自律運転ドメインの両方における理論的および実証的な結果は、自律エージェントのアライメントを認証するための高効率で正確な値アライメント検証テストを合成できることを実証する。
関連論文リスト
- ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z) - Attacker Control and Bug Prioritization [5.639904484784127]
脆弱性のパラメータに対する攻撃者の制御は、しばしば見過ごされるエクスプロイラビリティの要因である。
テナントだけでなく、単純な定性的かつ定量的な制御概念は、脆弱性を効果的に区別するのに十分なものではないことを示す。
我々は、脅威モデルや専門家の洞察を考慮に入れた上で、制御領域と呼ばれる実現可能な価値セットの分析に焦点を合わせることを提案する。
論文 参考訳(メタデータ) (2025-01-29T16:27:43Z) - Trustworthiness in Stochastic Systems: Towards Opening the Black Box [1.7355698649527407]
AIシステムによる行動は、アライメントと潜在的な信頼を損なう恐れがある。
我々は、基礎性と信頼性の間の緊張と潜在的な対立に対して哲学的な視点を採っている。
我々は,AIシステムとユーザの両方に対して,アライメントをよりよく評価するための潜在値モデリングを提案する。
論文 参考訳(メタデータ) (2025-01-27T19:43:09Z) - What If the Input is Expanded in OOD Detection? [77.37433624869857]
Out-of-distriion (OOD) 検出は未知のクラスからのOOD入力を特定することを目的としている。
In-distriion(ID)データと区別するために,様々なスコアリング関数を提案する。
入力空間に異なる共通の汚職を用いるという、新しい視点を導入する。
論文 参考訳(メタデータ) (2024-10-24T06:47:28Z) - On the Definition of Appropriate Trust and the Tools that Come with it [0.0]
本稿は文献からの適切な信頼の定義から始まる。
定義とモデル性能評価を比較し、適切な信頼とモデル性能評価の強い類似性を示す。
本稿では,不確実性の測定方法や回帰の適切な信頼度など,ユーザパフォーマンスのさまざまな側面に対する簡易な評価手法を提案する。
論文 参考訳(メタデータ) (2023-09-21T09:52:06Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - Zero-shot Faithful Factual Error Correction [53.121642212060536]
事実の誤りを忠実に訂正することは、テキストの知識基盤の整合性を維持し、シーケンス・ツー・シーケンス・モデルにおける幻覚を防ぐために重要である。
提案するゼロショットフレームワークは,入力クレームに関する質問を定式化し,与えられたエビデンスにおける正しい回答を求め,そのエビデンスとの整合性に基づいて各補正の忠実さを評価する。
論文 参考訳(メタデータ) (2023-05-13T18:55:20Z) - Trust, but Verify: Using Self-Supervised Probing to Improve
Trustworthiness [29.320691367586004]
我々は、訓練されたモデルに対する自信の過剰な問題をチェックおよび緩和することのできる、自己教師型探索の新しいアプローチを導入する。
既存の信頼性関連手法に対して,プラグイン・アンド・プレイ方式で柔軟に適用可能な,シンプルで効果的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-06T08:57:20Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Training Value-Aligned Reinforcement Learning Agents Using a Normative
Prior [10.421378728492437]
タスクパフォーマンスの指標のみをフィードバックとして使用することで、タスクを最適に実行するように訓練されたエージェントが、許容される行動や危害を引き起こす社会的規範に違反する可能性がある。
そこで我々は,標準的なタスクパフォーマンス報酬と規範的な行動報酬という2つの報酬信号を持つエージェントを訓練する,価値整合強化学習のアプローチを紹介する。
政策形成手法のバリエーションがこれら2つの報酬源をバランスさせ、効果的かつより規範的であると見なされる政策を生み出す方法を示す。
論文 参考訳(メタデータ) (2021-04-19T17:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。