論文の概要: Of Models and Tin Men: A Behavioural Economics Study of Principal-Agent
Problems in AI Alignment using Large-Language Models
- arxiv url: http://arxiv.org/abs/2307.11137v3
- Date: Wed, 13 Sep 2023 12:19:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 17:30:55.032963
- Title: Of Models and Tin Men: A Behavioural Economics Study of Principal-Agent
Problems in AI Alignment using Large-Language Models
- Title(参考訳): モデルとスズマン:大規模言語モデルを用いたAIアライメントにおける主エージェント問題に関する行動経済学的研究
- Authors: Steve Phelps and Rebecca Ranson
- Abstract要約: 我々は,GPTモデルが主エージェント間の衝突に対してどのように反応するかを検討する。
GPT-3.5とGPT-4の両方をベースとしたエージェントが,簡単なオンラインショッピングタスクで主目的をオーバーライドすることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI Alignment is often presented as an interaction between a single designer
and an artificial agent in which the designer attempts to ensure the agent's
behavior is consistent with its purpose, and risks arise solely because of
conflicts caused by inadvertent misalignment between the utility function
intended by the designer and the resulting internal utility function of the
agent. With the advent of agents instantiated with large-language models
(LLMs), which are typically pre-trained, we argue this does not capture the
essential aspects of AI safety because in the real world there is not a
one-to-one correspondence between designer and agent, and the many agents, both
artificial and human, have heterogeneous values. Therefore, there is an
economic aspect to AI safety and the principal-agent problem is likely to
arise. In a principal-agent problem conflict arises because of information
asymmetry together with inherent misalignment between the utility of the agent
and its principal, and this inherent misalignment cannot be overcome by
coercing the agent into adopting a desired utility function through training.
We argue the assumptions underlying principal-agent problems are crucial to
capturing the essence of safety problems involving pre-trained AI models in
real-world situations. Taking an empirical approach to AI safety, we
investigate how GPT models respond in principal-agent conflicts. We find that
agents based on both GPT-3.5 and GPT-4 override their principal's objectives in
a simple online shopping task, showing clear evidence of principal-agent
conflict. Surprisingly, the earlier GPT-3.5 model exhibits more nuanced
behaviour in response to changes in information asymmetry, whereas the later
GPT-4 model is more rigid in adhering to its prior alignment. Our results
highlight the importance of incorporating principles from economics into the
alignment process.
- Abstract(参考訳): AIアライメント(AI Alignment)は、単一のデザイナと、設計者がエージェントの動作をその目的と一致させようとする人工エージェントとの相互作用としてしばしば提示される。
一般的に事前学習される大言語モデル(llm)でインスタンス化されたエージェントの出現により、現実世界では設計者とエージェントの間に1対1の対応がなく、多くのエージェント(人工的および人間的の両方)は異質な値を持っているため、aiの安全性の本質的な側面を捉えていないと論じる。
したがって、AIの安全性には経済的側面があり、プリンシパルエージェントの問題が発生する可能性が高い。
主エージェント問題紛争は、情報非対称性とエージェントの効用とその主役間の固有の不整合が原因で発生し、エージェントを訓練を通じて所望の実用機能を採用するように強制することによって、この固有の不整合は克服できない。
我々は、プリンシパルエージェント問題の根底にある仮定は、実際の状況において事前訓練されたaiモデルを含む安全問題の本質を捉えるために不可欠であると主張する。
AIの安全性に対して実証的なアプローチをとることで、GPTモデルが主エージェント間の衝突に対してどのように反応するかを調査する。
GPT-3.5 と GPT-4 をベースとしたエージェントは,簡単なオンラインショッピングタスクで主目的を上回り,主エージェントの対立の明確な証拠を示す。
驚くべきことに、初期のGPT-3.5モデルは情報非対称性の変化に応じてよりニュアンスな振る舞いを示すが、後期のGPT-4モデルはそれ以前のアライメントに固執する。
この結果は、経済学の原則をアライメントプロセスに組み込むことの重要性を強調している。
関連論文リスト
- Causal Responsibility Attribution for Human-AI Collaboration [62.474732677086855]
本稿では,人間のAIシステムにおける責任を体系的に評価するために,構造因果モデル(SCM)を用いた因果的枠組みを提案する。
2つのケーススタディは、多様な人間とAIのコラボレーションシナリオにおけるフレームワークの適応性を示している。
論文 参考訳(メタデータ) (2024-11-05T17:17:45Z) - Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts [20.8288955218712]
本稿では,マルコフ決定プロセス(MDP)のエージェントを一連の契約でガイドするフレームワークを提案する。
我々は,主観とエージェントの方針を反復的に最適化するメタアルゴリズムを提示し,分析する。
次に,本アルゴリズムを深層Q-ラーニングで拡張し,近似誤差の存在下での収束度を解析する。
論文 参考訳(メタデータ) (2024-07-25T14:28:58Z) - Quantifying Misalignment Between Agents: Towards a Sociotechnical Understanding of Alignment [2.619545850602691]
最近の社会技術的アプローチは、複数の人間とAIエージェント間の複雑なミスアライメントを理解する必要性を強調している。
我々は、人間の競合の計算社会科学モデルをアライメント問題に適用する。
我々のモデルは、潜在的に矛盾する目標を持つ多種多様なエージェントグループにおけるミスアライメントを定量化する。
論文 参考訳(メタデータ) (2024-06-06T16:31:22Z) - What's my role? Modelling responsibility for AI-based safety-critical
systems [1.0549609328807565]
開発者や製造業者は、AI-SCSの有害な振る舞いに責任を負うことは困難である。
人間のオペレータは、作成に責任を負わなかったAI-SCS出力の結果に責任を負う"信頼性シンク"になる可能性がある。
本稿では,異なる責任感(ロール,モラル,法的,因果関係)と,それらがAI-SCSの安全性の文脈でどのように適用されるかを検討する。
論文 参考訳(メタデータ) (2023-12-30T13:45:36Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - Artificial Intelligence and Dual Contract [2.1756081703276]
独立したQ-ラーニングアルゴリズムを備えた2つのプリンシパルが1つのエージェントと対話するモデルを開発する。
その結果、AIプリンシパルの戦略的行動は、利益の整合性に決定的に左右されることがわかった。
論文 参考訳(メタデータ) (2023-03-22T07:31:44Z) - Discovering Agents [10.751378433775606]
エージェントの因果モデルは、機械学習システムの安全性の側面を分析するために使われてきた。
本稿では, エージェントの因果的定義を初めて提唱する。エージェントは, アクションが世界に影響を与える場合, エージェントが政策に適応するシステムであることを概ね示唆する。
論文 参考訳(メタデータ) (2022-08-17T15:13:25Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。