Fugu-MT 論文翻訳(概要): Of Models and Tin Men: A Behavioural Economics Study of Principal-Agent Problems in AI Alignment using Large-Language Models

論文の概要: Of Models and Tin Men: A Behavioural Economics Study of Principal-Agent Problems in AI Alignment using Large-Language Models

arxiv url: http://arxiv.org/abs/2307.11137v2
Date: Sun, 27 Aug 2023 10:32:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-29 22:53:28.611848
Title: Of Models and Tin Men: A Behavioural Economics Study of Principal-Agent Problems in AI Alignment using Large-Language Models
Title（参考訳）: モデルとスズマン:大規模言語モデルを用いたAIアライメントにおける主エージェント問題に関する行動経済学的研究
Authors: Steve Phelps and Rebecca Ranson
Abstract要約: 我々は,GPTモデルが主エージェント間の衝突に対してどのように反応するかを検討する。 GPT-3.5とGPT-4の両方をベースとしたエージェントが,簡単なオンラインショッピングタスクで主目的をオーバーライドすることがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: AI Alignment is often presented as an interaction between a single designer and an artificial agent in which the designer attempts to ensure the agent's behavior is consistent with its purpose, and risks arise solely because of conflicts caused by inadvertent misalignment between the utility function intended by the designer and the resulting internal utility function of the agent. With the advent of agents instantiated with large-language models (LLMs), which are typically pre-trained, we argue this does not capture the essential aspects of AI safety because in the real world there is not a one-to-one correspondence between designer and agent, and the many agents, both artificial and human, have heterogeneous values. Therefore, there is an economic aspect to AI safety and the principal-agent problem is likely to arise. In a principal-agent problem conflict arises because of information asymmetry together with inherent misalignment between the utility of the agent and its principal, and this inherent misalignment cannot be overcome by coercing the agent into adopting a desired utility function through training. We argue the assumptions underlying principal-agent problems are crucial to capturing the essence of safety problems involving pre-trained AI models in real-world situations. Taking an empirical approach to AI safety, we investigate how GPT models respond in principal-agent conflicts. We find that agents based on both GPT-3.5 and GPT-4 override their principal's objectives in a simple online shopping task, showing clear evidence of principal-agent conflict. Surprisingly, the earlier GPT-3.5 model exhibits more nuanced behaviour in response to changes in information asymmetry, whereas the later GPT-4 model is more rigid in adhering to its prior alignment. Our results highlight the importance of incorporating principles from economics into the alignment process.
Abstract（参考訳）: AIアライメント(AI Alignment)は、単一のデザイナと、設計者がエージェントの動作をその目的と一致させようとする人工エージェントとの相互作用としてしばしば提示される。一般的に事前学習される大言語モデル(llm)でインスタンス化されたエージェントの出現により、現実世界では設計者とエージェントの間に1対1の対応がなく、多くのエージェント(人工的および人間的の両方)は異質な値を持っているため、aiの安全性の本質的な側面を捉えていないと論じる。したがって、AIの安全性には経済的側面があり、プリンシパルエージェントの問題が発生する可能性が高い。主エージェント問題紛争は、情報非対称性とエージェントの効用とその主役間の固有の不整合が原因で発生し、エージェントを訓練を通じて所望の実用機能を採用するように強制することによって、この固有の不整合は克服できない。我々は、プリンシパルエージェント問題の根底にある仮定は、実際の状況において事前訓練されたaiモデルを含む安全問題の本質を捉えるために不可欠であると主張する。 AIの安全性に対して実証的なアプローチをとることで、GPTモデルが主エージェント間の衝突に対してどのように反応するかを調査する。 GPT-3.5 と GPT-4 をベースとしたエージェントは,簡単なオンラインショッピングタスクで主目的を上回り,主エージェントの対立の明確な証拠を示す。驚くべきことに、初期のGPT-3.5モデルは情報非対称性の変化に応じてよりニュアンスな振る舞いを示すが、後期のGPT-4モデルはそれ以前のアライメントに固執する。この結果は、経済学の原則をアライメントプロセスに組み込むことの重要性を強調している。

関連論文リスト

OMNI-LEAK: Orchestrator Multi-Agent Network Induced Data Leakage [59.3826294523924]
オーケストレータ設定として知られる,一般的なマルチエージェントパターンのセキュリティ脆弱性について検討する。本報告では,フロンティアモデルの攻撃カテゴリに対する感受性を報告し,推論モデルと非推論モデルの両方が脆弱であることが確認された。
論文参考訳（メタデータ） (2026-02-13T21:32:32Z)
AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security [126.49733412191416]
現在のガードレールモデルは、リスク診断におけるエージェント的リスク認識と透明性を欠いている。エージェントリスクをソース(場所)、障害モード(方法)、結果(何)で分類する統合された3次元分類法を提案する。 AgentDoG(AgentDoG)のための,エージェント安全性ベンチマーク(ATBench)と診断ガードレールフレームワークを新たに導入する。
論文参考訳（メタデータ） (2026-01-26T13:45:41Z)
The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文参考訳（メタデータ） (2026-01-21T15:22:21Z)
Institutional AI: A Governance Framework for Distributional AGI Safety [1.3763052684269788]
AIモデルのコア特性から生じる3つの構造的問題を同定する。ソリューションはInstitutional AIであり、AIエージェント集団の効果的なガバナンスの問題としてアライメントを扱うシステムレベルのアプローチである。
論文参考訳（メタデータ） (2026-01-15T17:08:26Z)
Agent-Dice: Disentangling Knowledge Updates via Geometric Consensus for Agent Continual Learning [41.461840578204956]
大言語モデル(LLM)ベースのエージェントは、破滅的な忘れをせずに新しいタスクを学習する。 Agent-Diceは指向性コンセンサス評価に基づくパラメータ融合フレームワークである。 GUIエージェントとツール使用エージェントドメインの実験は、Agent-Diceが優れた連続学習性能を示すことを示した。
論文参考訳（メタデータ） (2026-01-07T06:43:50Z)
The Agent Behavior: Model, Governance and Challenges in the AI Digital Age [13.689486430780518]
AIの進歩は、ネットワーク化された環境でエージェントが人間の振る舞いを反映するようになる。本稿では,ネットワークの挙動を6段階に分割し,各段階における人間とエージェントの行動差を系統的に解析するネットワーク行動ライフサイクルモデルを提案する。エージェントのためのエージェント(A4A)パラダイムと,5次元にわたる人間とエージェントの行動の根本的な区別を考察したHuman-Agent Behavioral Disparity(HABD)モデルについても紹介する。
論文参考訳（メタデータ） (2025-08-20T04:24:55Z)
AI Agents and the Law [17.712990593093316]
我々は、エージェントの技術的な概念が、エージェンシーの社会法的概念の一部を追跡するが、全てではないことを示す。機関法における暗黙の権威とAIにおける価値アライメントの原理の相関について検討する。
論文参考訳（メタデータ） (2025-08-12T01:18:48Z)
Toward a Theory of Agents as Tool-Use Decision-Makers [89.26889709510242]
真の自律性は、エージェントが、彼らが知っていること、必要なこと、そしてその知識を効率的に獲得する方法を統治する、一貫性のある疫学の枠組みに根ざす必要がある、と我々は主張する。本研究では,内的推論と外的行動を等価な疫学ツールとして扱う統一理論を提案し,エージェントが内観と相互作用を体系的に調整することを可能にする。この視点は、エージェントの設計を単なるアクションエグゼクタから知識駆動インテリジェンスシステムにシフトさせ、適応的で効率的でゴール指向の行動が可能な基礎エージェントを構築するための原則化された道筋を提供する。
論文参考訳（メタデータ） (2025-06-01T07:52:16Z)
The Traitors: Deception and Trust in Multi-Agent Language Model Simulations [0.0]
ソーシャル・デダクション・ゲームに触発されたマルチエージェント・シミュレーション・フレームワークであるThe Traitorsを紹介した。我々は,詐欺の成功,信頼ダイナミクス,集団推論品質を計測する評価指標のスイートを開発する。 DeepSeek-V3, GPT-4o-mini, GPT-4o(モデル毎に10回の走行)による実験では, 顕著な非対称性が示された。
論文参考訳（メタデータ） (2025-05-19T10:01:35Z)
AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges [0.36868085124383626]
この研究はAIエージェントとエージェントAIを区別し、構造化された概念分類、アプリケーションマッピング、課題分析を提供する。ジェネレーティブAIは前駆体として位置づけられており、AIエージェントはツールの統合、エンジニアリングの促進、推論の強化を通じて前進している。エージェントAIシステムは、マルチエージェントコラボレーション、動的タスク分解、永続メモリ、オーケストレーション自律性によって特徴付けられるパラダイムシフトを表している。
論文参考訳（メタデータ） (2025-05-15T16:21:33Z)
Securing Agentic AI: A Comprehensive Threat Model and Mitigation Framework for Generative AI Agents [0.0]
本稿では,GenAIエージェントに特化した包括的脅威モデルを提案する。研究は、9つの主要な脅威を特定し、5つの主要なドメインにまたがってそれらを整理する。
論文参考訳（メタデータ） (2025-04-28T16:29:24Z)
Do LLMs trust AI regulation? Emerging behaviour of game-theoretic LLM agents [61.132523071109354]
本稿では、異なる規制シナリオ下での戦略選択をモデル化する、AI開発者、規制当局、ユーザ間の相互作用について検討する。我々の研究は、純粋なゲーム理論エージェントよりも「悲観的」な姿勢を採用する傾向にある戦略的AIエージェントの出現する振る舞いを特定する。
論文参考訳（メタデータ） (2025-04-11T15:41:21Z)
Governing AI Agents [0.2913760942403036]
本項では、主エージェント問題に関する経済理論と、機関関係に関する共通法学説を概観する。それは、情報非対称性、差別的権威、忠誠といった問題を含む、AIエージェントから生じる問題を特定する。包括性、可視性、責任のガバナンス原則をサポートするためには、新しい技術的および法的基盤が必要である、と氏は主張する。
論文参考訳（メタデータ） (2025-01-14T07:55:18Z)
Causal Responsibility Attribution for Human-AI Collaboration [62.474732677086855]
本稿では,人間のAIシステムにおける責任を体系的に評価するために,構造因果モデル(SCM)を用いた因果的枠組みを提案する。 2つのケーススタディは、多様な人間とAIのコラボレーションシナリオにおけるフレームワークの適応性を示している。
論文参考訳（メタデータ） (2024-11-05T17:17:45Z)
Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts [20.8288955218712]
本稿では,マルコフ決定プロセス(MDP)のエージェントを一連の契約でガイドするフレームワークを提案する。我々は,主観とエージェントの方針を反復的に最適化するメタアルゴリズムを提示し,分析する。次に,本アルゴリズムを深層Q-ラーニングで拡張し,近似誤差の存在下での収束度を解析する。
論文参考訳（メタデータ） (2024-07-25T14:28:58Z)
Quantifying Misalignment Between Agents: Towards a Sociotechnical Understanding of Alignment [2.619545850602691]
最近の社会技術的アプローチは、複数の人間とAIエージェント間の複雑なミスアライメントを理解する必要性を強調している。我々は、人間の競合の計算社会科学モデルをアライメント問題に適用する。我々のモデルは、潜在的に矛盾する目標を持つ多種多様なエージェントグループにおけるミスアライメントを定量化する。
論文参考訳（メタデータ） (2024-06-06T16:31:22Z)
What's my role? Modelling responsibility for AI-based safety-critical systems [1.0549609328807565]
開発者や製造業者は、AI-SCSの有害な振る舞いに責任を負うことは困難である。人間のオペレータは、作成に責任を負わなかったAI-SCS出力の結果に責任を負う"信頼性シンク"になる可能性がある。本稿では,異なる責任感(ロール,モラル,法的,因果関係)と,それらがAI-SCSの安全性の文脈でどのように適用されるかを検討する。
論文参考訳（メタデータ） (2023-12-30T13:45:36Z)
Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文参考訳（メタデータ） (2023-12-22T17:57:57Z)
The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされるまず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文参考訳（メタデータ） (2023-09-14T17:12:03Z)
Artificial Intelligence and Dual Contract [2.1756081703276]
独立したQ-ラーニングアルゴリズムを備えた2つのプリンシパルが1つのエージェントと対話するモデルを開発する。その結果、AIプリンシパルの戦略的行動は、利益の整合性に決定的に左右されることがわかった。
論文参考訳（メタデータ） (2023-03-22T07:31:44Z)
Discovering Agents [10.751378433775606]
エージェントの因果モデルは、機械学習システムの安全性の側面を分析するために使われてきた。本稿では, エージェントの因果的定義を初めて提唱する。エージェントは, アクションが世界に影響を与える場合, エージェントが政策に適応するシステムであることを概ね示唆する。
論文参考訳（メタデータ） (2022-08-17T15:13:25Z)
Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文参考訳（メタデータ） (2022-06-23T16:36:13Z)
Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。 RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文参考訳（メタデータ） (2022-01-18T20:54:00Z)
End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。明示的および暗黙的な区別に基づく2つのアプローチを提案する。分析結果は、実世界のいくつかの問題を用いて検証される。
論文参考訳（メタデータ） (2020-10-26T18:39:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。