論文の概要: Of Models and Tin Men: A Behavioural Economics Study of Principal-Agent
Problems in AI Alignment using Large-Language Models
- arxiv url: http://arxiv.org/abs/2307.11137v2
- Date: Sun, 27 Aug 2023 10:32:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 22:53:28.611848
- Title: Of Models and Tin Men: A Behavioural Economics Study of Principal-Agent
Problems in AI Alignment using Large-Language Models
- Title(参考訳): モデルとスズマン:大規模言語モデルを用いたAIアライメントにおける主エージェント問題に関する行動経済学的研究
- Authors: Steve Phelps and Rebecca Ranson
- Abstract要約: 我々は,GPTモデルが主エージェント間の衝突に対してどのように反応するかを検討する。
GPT-3.5とGPT-4の両方をベースとしたエージェントが,簡単なオンラインショッピングタスクで主目的をオーバーライドすることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI Alignment is often presented as an interaction between a single designer
and an artificial agent in which the designer attempts to ensure the agent's
behavior is consistent with its purpose, and risks arise solely because of
conflicts caused by inadvertent misalignment between the utility function
intended by the designer and the resulting internal utility function of the
agent. With the advent of agents instantiated with large-language models
(LLMs), which are typically pre-trained, we argue this does not capture the
essential aspects of AI safety because in the real world there is not a
one-to-one correspondence between designer and agent, and the many agents, both
artificial and human, have heterogeneous values. Therefore, there is an
economic aspect to AI safety and the principal-agent problem is likely to
arise. In a principal-agent problem conflict arises because of information
asymmetry together with inherent misalignment between the utility of the agent
and its principal, and this inherent misalignment cannot be overcome by
coercing the agent into adopting a desired utility function through training.
We argue the assumptions underlying principal-agent problems are crucial to
capturing the essence of safety problems involving pre-trained AI models in
real-world situations. Taking an empirical approach to AI safety, we
investigate how GPT models respond in principal-agent conflicts. We find that
agents based on both GPT-3.5 and GPT-4 override their principal's objectives in
a simple online shopping task, showing clear evidence of principal-agent
conflict. Surprisingly, the earlier GPT-3.5 model exhibits more nuanced
behaviour in response to changes in information asymmetry, whereas the later
GPT-4 model is more rigid in adhering to its prior alignment. Our results
highlight the importance of incorporating principles from economics into the
alignment process.
- Abstract(参考訳): AIアライメント(AI Alignment)は、単一のデザイナと、設計者がエージェントの動作をその目的と一致させようとする人工エージェントとの相互作用としてしばしば提示される。
一般的に事前学習される大言語モデル(llm)でインスタンス化されたエージェントの出現により、現実世界では設計者とエージェントの間に1対1の対応がなく、多くのエージェント(人工的および人間的の両方)は異質な値を持っているため、aiの安全性の本質的な側面を捉えていないと論じる。
したがって、AIの安全性には経済的側面があり、プリンシパルエージェントの問題が発生する可能性が高い。
主エージェント問題紛争は、情報非対称性とエージェントの効用とその主役間の固有の不整合が原因で発生し、エージェントを訓練を通じて所望の実用機能を採用するように強制することによって、この固有の不整合は克服できない。
我々は、プリンシパルエージェント問題の根底にある仮定は、実際の状況において事前訓練されたaiモデルを含む安全問題の本質を捉えるために不可欠であると主張する。
AIの安全性に対して実証的なアプローチをとることで、GPTモデルが主エージェント間の衝突に対してどのように反応するかを調査する。
GPT-3.5 と GPT-4 をベースとしたエージェントは,簡単なオンラインショッピングタスクで主目的を上回り,主エージェントの対立の明確な証拠を示す。
驚くべきことに、初期のGPT-3.5モデルは情報非対称性の変化に応じてよりニュアンスな振る舞いを示すが、後期のGPT-4モデルはそれ以前のアライメントに固執する。
この結果は、経済学の原則をアライメントプロセスに組み込むことの重要性を強調している。
関連論文リスト
- Bias Mitigation via Compensation: A Reinforcement Learning Perspective [1.5442389863546546]
グループダイナミクスは、あるエージェント(例えば、AIシステム)が別のエージェント(例えば、人間)のバイアスとエラーを補う必要があるかもしれない。
ゲーム理論と強化学習原理を合成するアルゴリズム補償のための理論的枠組みを提供する。
この研究は、AIエージェントが他のエージェントのバイアスや行動に適応すべき条件の倫理的分析の基礎となる。
論文 参考訳(メタデータ) (2024-04-30T04:41:47Z) - Designing for Human-Agent Alignment: Understanding what humans want from their agents [31.716736340311318]
われわれは、カメラをオンラインで販売する架空の作業中に交渉できるエージェントの設計について研究した。
エージェントがタスクを成功させるためには,人間やユーザ,エージェントが6次元以上を調整する必要があることがわかった。
これらの知見は、プロセスと仕様のアライメントと、人間とAIのインタラクションにおける価値と安全性の必要性に関する以前の作業を拡張した。
論文 参考訳(メタデータ) (2024-04-04T03:01:57Z) - Enhancing Trust in Autonomous Agents: An Architecture for Accountability and Explainability through Blockchain and Large Language Models [0.3495246564946556]
この研究は、ROSベースの移動ロボットに実装された説明可能性と説明可能性のアーキテクチャを示す。
提案されたソリューションは2つの主要コンポーネントで構成されている。まず、説明責任を提供するブラックボックスのような要素で、ブロックチェーン技術によって達成されるアンチタンパ特性を特徴とする。
第二に、前述のブラックボックスに含まれるデータに対して、Large Language Models(LLM)の機能を利用することで、自然言語の説明を生成するコンポーネントである。
論文 参考訳(メタデータ) (2024-03-14T16:57:18Z) - What's my role? Modelling responsibility for AI-based safety-critical
systems [1.0549609328807565]
開発者や製造業者は、AI-SCSの有害な振る舞いに責任を負うことは困難である。
人間のオペレータは、作成に責任を負わなかったAI-SCS出力の結果に責任を負う"信頼性シンク"になる可能性がある。
本稿では,異なる責任感(ロール,モラル,法的,因果関係)と,それらがAI-SCSの安全性の文脈でどのように適用されるかを検討する。
論文 参考訳(メタデータ) (2023-12-30T13:45:36Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Sim-to-Real Causal Transfer: A Metric Learning Approach to
Causally-Aware Interaction Representations [62.48505112245388]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。
近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。
因果アノテーションを用いた潜在表現を正規化するための計量学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:57:03Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - Discovering Agents [10.751378433775606]
エージェントの因果モデルは、機械学習システムの安全性の側面を分析するために使われてきた。
本稿では, エージェントの因果的定義を初めて提唱する。エージェントは, アクションが世界に影響を与える場合, エージェントが政策に適応するシステムであることを概ね示唆する。
論文 参考訳(メタデータ) (2022-08-17T15:13:25Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。