論文の概要: Towards Measuring Goal-Directedness in AI Systems
- arxiv url: http://arxiv.org/abs/2410.04683v2
- Date: Fri, 22 Nov 2024 00:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:01:49.736848
- Title: Towards Measuring Goal-Directedness in AI Systems
- Title(参考訳): AIシステムにおけるゴール指向性の測定に向けて
- Authors: Dylan Xu, Juan-Pablo Rivera,
- Abstract要約: 意図しない目標を追求するAIシステムにとって重要な前提条件は、一貫性のあるゴール指向の方法で振る舞うかどうかである。
そこで本稿では,多くの報酬関数に準最適であるかどうかをモデル化する政策の目的指向性の定義を新たに提案する。
私たちの貢献は、AIシステムが危険な目標を追求できるかどうかという問題にアプローチするために、シンプルで計算が容易なゴール指向性の定義です。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Recent advances in deep learning have brought attention to the possibility of creating advanced, general AI systems that outperform humans across many tasks. However, if these systems pursue unintended goals, there could be catastrophic consequences. A key prerequisite for AI systems pursuing unintended goals is whether they will behave in a coherent and goal-directed manner in the first place, optimizing for some unknown goal; there exists significant research trying to evaluate systems for said behaviors. However, the most rigorous definitions of goal-directedness we currently have are difficult to compute in real-world settings. Drawing upon this previous literature, we explore policy goal-directedness within reinforcement learning (RL) environments. In our findings, we propose a different family of definitions of the goal-directedness of a policy that analyze whether it is well-modeled as near-optimal for many (sparse) reward functions. We operationalize this preliminary definition of goal-directedness and test it in toy Markov decision process (MDP) environments. Furthermore, we explore how goal-directedness could be measured in frontier large-language models (LLMs). Our contribution is a definition of goal-directedness that is simpler and more easily computable in order to approach the question of whether AI systems could pursue dangerous goals. We recommend further exploration of measuring coherence and goal-directedness, based on our findings.
- Abstract(参考訳): 近年のディープラーニングの進歩は、多くのタスクで人間を上回る高度な汎用AIシステムを構築する可能性に注意を向けている。
しかし、これらのシステムが意図しない目標を追求すれば、破滅的な結果がもたらされる可能性がある。
意図しない目標を追求するAIシステムにとって重要な前提条件は、まず第一に、コヒーレントでゴール指向の方法で行動し、未知の目標を最適化するかどうかである。
しかし、私たちが現在持っているゴール指向性の最も厳格な定義は、現実の環境では計算が難しい。
本論文を参考に,強化学習(RL)環境における政策目標指向性について考察する。
そこで本研究では,多くの報酬関数に準最適にモデル化されているかどうかを解析する政策の目的指向性の異なる定義系を提案する。
目標指向性の予備的な定義を運用し、おもちゃのマルコフ決定プロセス(MDP)環境でテストする。
さらに,フロンティア大言語モデル (LLM) における目標指向性の測定方法について検討した。
私たちの貢献は、AIシステムが危険な目標を追求できるかどうかという問題にアプローチするために、シンプルで計算が容易なゴール指向性の定義です。
我々は,この結果に基づいて,コヒーレンスとゴール指向性の測定をさらに行うことを推奨する。
関連論文リスト
- Expectation Alignment: Handling Reward Misspecification in the Presence of Expectation Mismatch [19.03141646688652]
我々は、人間のAIエージェントに対する信念である心の理論を基礎として、公式な説明的枠組みを開発する。
ユーザからの期待を推測するために,特定報酬を用いた対話型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-12T19:43:37Z) - Data-Driven Goal Recognition Design for General Behavioral Agents [14.750023724230774]
汎用行動モデルを持つエージェントを考慮に入れた,目標認識設計のためのデータ駆動型アプローチを提案する。
本稿では,様々な制約を満たす勾配に基づく最適化フレームワークを提案し,意思決定環境を最適化する。
論文 参考訳(メタデータ) (2024-04-03T20:38:22Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Investigating the Combination of Planning-Based and Data-Driven Methods
for Goal Recognition [7.620967781722714]
現実の環境での2つの最先端計画に基づく計画認識手法の適用について検討する。
このようなアプローチは、人間の行動が完全に合理的ではないため、人間の目標を認識する上では困難であることを示す。
本研究では,観察行動データに基づいて学習した分類に基づく手法により,既存の手法の拡張を提案する。
論文 参考訳(メタデータ) (2023-01-13T15:24:02Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Goal Misgeneralization: Why Correct Specifications Aren't Enough For
Correct Goals [21.055450435866028]
仕様が正しい場合でも,AIシステムが望ましくない目標を追求する方法を示す。
ゴール誤一般化(Goal mis generalization)は、学習アルゴリズムの堅牢性障害の一形態である。
我々は,将来のシステムにおいて,目標誤一般化のリスクを低減するためのいくつかの研究指針を提案する。
論文 参考訳(メタデータ) (2022-10-04T17:57:53Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Understanding the origin of information-seeking exploration in
probabilistic objectives for control [62.997667081978825]
探索と探索のトレードオフは適応行動の記述の中心である。
このトレードオフを解決する1つのアプローチは、エージェントが固有の「探索駆動」を持っていることを装備または提案することであった。
汎用的最大化と情報参照行動の組み合わせは, 目的の全く異なる分類の最小化から生じることを示す。
論文 参考訳(メタデータ) (2021-03-11T18:42:39Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。