論文の概要: Agents Need Not Know Their Purpose
- arxiv url: http://arxiv.org/abs/2402.09734v1
- Date: Thu, 15 Feb 2024 06:15:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 16:54:00.679045
- Title: Agents Need Not Know Their Purpose
- Title(参考訳): エージェントは目的を知らなくてもよい
- Authors: Paulo Garcia
- Abstract要約: 本稿では,隠れたサブファンクションの集合である有効効用関数を設計したエージェントについて述べる。
本稿では,設計者の意図の内的近似を合理的に構成する,不愉快なエージェントについて述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring artificial intelligence behaves in such a way that is aligned with
human values is commonly referred to as the alignment challenge. Prior work has
shown that rational agents, behaving in such a way that maximizes a utility
function, will inevitably behave in such a way that is not aligned with human
values, especially as their level of intelligence goes up. Prior work has also
shown that there is no "one true utility function"; solutions must include a
more holistic approach to alignment. This paper describes oblivious agents:
agents that are architected in such a way that their effective utility function
is an aggregation of a known and hidden sub-functions. The hidden component, to
be maximized, is internally implemented as a black box, preventing the agent
from examining it. The known component, to be minimized, is knowledge of the
hidden sub-function. Architectural constraints further influence how agent
actions can evolve its internal environment model. We show that an oblivious
agent, behaving rationally, constructs an internal approximation of designers'
intentions (i.e., infers alignment), and, as a consequence of its architecture
and effective utility function, behaves in such a way that maximizes alignment;
i.e., maximizing the approximated intention function. We show that,
paradoxically, it does this for whatever utility function is used as the hidden
component and, in contrast with extant techniques, chances of alignment
actually improve as agent intelligence grows.
- Abstract(参考訳): 人工知能が人間の価値観に合致するように振る舞うことを保証することは、一般にアライメントチャレンジと呼ばれる。
従来の研究は、有理エージェントは実用機能を最大化するような方法で行動し、特に知能のレベルが上昇するにつれて、必然的に人間の価値観と一致しない方法で振る舞うことを示していた。
以前の研究は、"真のユーティリティ関数"が存在しないことも示しており、ソリューションにはアライメントに対するより包括的なアプローチを含める必要がある。
本稿では, 有効な効用関数が既知のサブ関数と隠れたサブ関数の集合であるように構築されるエージェントについて述べる。
最大化される隠蔽成分はブラックボックスとして内部的に実装され、エージェントが検査するのを防ぐ。
最小化される既知のコンポーネントは、隠れたサブファンクションの知識である。
アーキテクチャ上の制約は、エージェントアクションが内部環境モデルをどのように進化させるかにさらに影響を与えます。
本研究では,設計者の意図の内的近似(すなわち,アライメントを推論する)を構築し,そのアーキテクチャと有効ユーティリティ関数の結果として,アライメントを最大化する,すなわち近似意図関数の最大化という振る舞いを示す。
逆説的に言えば、これは隠れたコンポーネントとして使われるユーティリティ機能に対して行われており、既存の技術とは対照的に、エージェントインテリジェンスの増加に伴ってアライメントが実際に改善される可能性を示している。
関連論文リスト
- Intention-aware policy graphs: answering what, how, and why in opaque agents [0.1398098625978622]
エージェントは、複雑な環境で相互作用し、創発的行動の可能性を高める、AIベースの特殊なソフトウェアである。
本稿では,確率的グラフィカルモデルと,そのようなモデル設計のためのパイプラインを提案する。
提案する説明の解釈可能性および信頼性を評価するために,提案手法を貢献する。
このモデルは、エージェントの行動と世界状態の一部を観察することで構築することができる。
論文 参考訳(メタデータ) (2024-09-27T09:31:45Z) - Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z) - Decision-Making Among Bounded Rational Agents [5.24482648010213]
本稿では,情報理論の観点からの有界合理性の概念をゲーム理論の枠組みに導入する。
これにより、ロボットは他のエージェントの準最適動作を推論し、計算上の制約の下で行動することができる。
その結果,ロボットが他のエージェントの理性行動の異なるレベルを推論し,その計算制約の下で合理的な戦略を計算できることが実証された。
論文 参考訳(メタデータ) (2022-10-17T00:29:24Z) - On Avoiding Power-Seeking by Artificial Intelligence [93.9264437334683]
私たちは、非常にインテリジェントなAIエージェントの振る舞いと人間の関心を協調する方法を知りません。
私は、世界に限られた影響を与え、自律的に力を求めないスマートAIエージェントを構築できるかどうか調査する。
論文 参考訳(メタデータ) (2022-06-23T16:56:21Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Understanding the origin of information-seeking exploration in
probabilistic objectives for control [62.997667081978825]
探索と探索のトレードオフは適応行動の記述の中心である。
このトレードオフを解決する1つのアプローチは、エージェントが固有の「探索駆動」を持っていることを装備または提案することであった。
汎用的最大化と情報参照行動の組み合わせは, 目的の全く異なる分類の最小化から生じることを示す。
論文 参考訳(メタデータ) (2021-03-11T18:42:39Z) - Performance of Bounded-Rational Agents With the Ability to Self-Modify [1.933681537640272]
複雑な環境に埋め込まれたエージェントの自己修飾は避けがたい。
インテリジェントエージェントは、将来のインスタンスが同じ目標に向かって機能するように、ユーティリティ機能の変更を避けるインセンティブを持っている、と論じられている。
この結果は有界な有理性を持つエージェントにはもはや当てはまらない。
論文 参考訳(メタデータ) (2020-11-12T09:25:08Z) - TripleTree: A Versatile Interpretable Representation of Black Box Agents
and their Environments [9.822870889029113]
本稿では,状態空間を凸領域に識別する一般理解に向けて,多目的な第一歩を提案する。
我々は、CART決定木アルゴリズムの新しい変種を用いて、そのような表現を作成する。
予測,可視化,ルールに基づく説明を通じて,ブラックボックスエージェントの実践的理解を促進する方法を示す。
論文 参考訳(メタデータ) (2020-09-10T09:22:27Z) - Attention or memory? Neurointerpretable agents in space and time [0.0]
本研究では,意味的特徴空間にタスク状態表現を実装する自己認識機構を組み込んだモデルの設計を行う。
エージェントの選択的特性を評価するために,多数のタスク非関連特徴を観察に付加する。
神経科学の予測に従って、自己注意は、ベンチマークモデルと比較してノイズに対する堅牢性を高める。
論文 参考訳(メタデータ) (2020-07-09T15:04:26Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。