論文の概要: Goal Alignment: A Human-Aware Account of Value Alignment Problem
- arxiv url: http://arxiv.org/abs/2302.00813v1
- Date: Thu, 2 Feb 2023 01:18:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 15:50:34.957844
- Title: Goal Alignment: A Human-Aware Account of Value Alignment Problem
- Title(参考訳): ゴールアライメント: 価値アライメントの問題に対する人間の意識
- Authors: Malek Mechergui and Sarath Sreedharan
- Abstract要約: バリューアライメント問題は、AIエージェントの指定された目的がそのユーザの真の目的と一致しないシナリオで発生する。
ミスアライメントの根本的な原因は、エージェントの行動とエージェントが特定の目的のために生成する振る舞いに対する人間の期待に固有の非対称性である。
本稿では,価値アライメントに関わるいくつかの中心的課題に焦点をあてた,ゴールアライメント(ゴールアライメント)という,バリューアライメント問題の新たな定式化を提案する。
- 参考スコア(独自算出の注目度): 16.660807368368758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value alignment problems arise in scenarios where the specified objectives of
an AI agent don't match the true underlying objective of its users. The problem
has been widely argued to be one of the central safety problems in AI.
Unfortunately, most existing works in value alignment tend to focus on issues
that are primarily related to the fact that reward functions are an unintuitive
mechanism to specify objectives. However, the complexity of the objective
specification mechanism is just one of many reasons why the user may have
misspecified their objective. A foundational cause for misalignment that is
being overlooked by these works is the inherent asymmetry in human expectations
about the agent's behavior and the behavior generated by the agent for the
specified objective. To address this lacuna, we propose a novel formulation for
the value alignment problem, named goal alignment that focuses on a few central
challenges related to value alignment. In doing so, we bridge the currently
disparate research areas of value alignment and human-aware planning.
Additionally, we propose a first-of-its-kind interactive algorithm that is
capable of using information generated under incorrect beliefs about the agent,
to determine the true underlying goal of the user.
- Abstract(参考訳): バリューアライメント問題は、AIエージェントの指定された目的がそのユーザの真の目的と一致しないシナリオで発生する。
この問題はAIの中心的な安全問題の一つであると広く主張されている。
残念なことに、価値アライメントの既存の作品の多くは、報酬関数が目的を特定する直観的なメカニズムであるという事実に主に関係している問題に焦点を当てる傾向がある。
しかし、目的仕様機構の複雑さは、ユーザが目的を誤って特定した多くの理由の1つである。
これらの作品で見過ごされている不一致の根本的な原因は、エージェントの行動とエージェントが特定の目的のために生成した振る舞いに対する人間の期待に固有の非対称性である。
そこで本研究では,値アライメントに関わるいくつかの中心的課題に焦点をあてたゴールアライメントという,値アライメント問題の新たな定式化を提案する。
そうすることで、現在異なる価値アライメントとヒューマン・アウェア・プランニングの研究領域を橋渡しします。
さらに,エージェントに関する誤った信念の下で生成された情報を利用して,ユーザの真の目的を判断できる対話型アルゴリズムを提案する。
関連論文リスト
- Controllable Preference Optimization: Toward Controllable
Multi-Objective Alignment [107.63756895544842]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Concept Alignment as a Prerequisite for Value Alignment [11.236150405125754]
価値アライメントは、人々と安全かつ確実に対話できるAIシステムを構築するために不可欠である。
概念のアライメントが体系的な価値のアライメントにどのように結びつくかを示します。
我々は、人の概念や価値観を共同で推論することで、このような障害モードを最小化するアプローチについて説明する。
論文 参考訳(メタデータ) (2023-10-30T22:23:15Z) - Of Models and Tin Men: A Behavioural Economics Study of Principal-Agent
Problems in AI Alignment using Large-Language Models [0.0]
我々は,GPTモデルが主エージェント間の衝突に対してどのように反応するかを検討する。
GPT-3.5とGPT-4の両方をベースとしたエージェントが,簡単なオンラインショッピングタスクで主目的をオーバーライドすることがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:19:15Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - Aligned with Whom? Direct and social goals for AI systems [0.0]
この記事では、どの目標を検討するかによって、2種類のアライメント問題を区別する。
直接的なアライメント問題は、AIシステムがそれを操作するエンティティの目標を達成するかどうかを考慮する。
社会アライメント問題は、より大きなグループや社会に対するAIシステムの影響をより広く考慮している。
論文 参考訳(メタデータ) (2022-05-09T13:49:47Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - Understanding the origin of information-seeking exploration in
probabilistic objectives for control [62.997667081978825]
探索と探索のトレードオフは適応行動の記述の中心である。
このトレードオフを解決する1つのアプローチは、エージェントが固有の「探索駆動」を持っていることを装備または提案することであった。
汎用的最大化と情報参照行動の組み合わせは, 目的の全く異なる分類の最小化から生じることを示す。
論文 参考訳(メタデータ) (2021-03-11T18:42:39Z) - Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。
この相違は, 目的の強調安定性によるものであることを示す。
大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文 参考訳(メタデータ) (2020-06-27T13:52:07Z) - ObjectNav Revisited: On Evaluation of Embodied Agents Navigating to
Objects [119.46959413000594]
この文書は、ObjectNavのワーキンググループのコンセンサスレコメンデーションを要約します。
評価基準の微妙だが重要な詳細について推奨する。
CVPR 2020のEmbodied AIワークショップで実施された課題において、これらの推奨事項のインスタンス化について、詳細な説明を行う。
論文 参考訳(メタデータ) (2020-06-23T17:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。