論文の概要: Aligning Large Language Model Agents with Rational and Moral Preferences: A Supervised Fine-Tuning Approach
- arxiv url: http://arxiv.org/abs/2507.20796v1
- Date: Mon, 28 Jul 2025 13:05:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.124336
- Title: Aligning Large Language Model Agents with Rational and Moral Preferences: A Supervised Fine-Tuning Approach
- Title(参考訳): 合理的および道徳的選好を伴う大規模言語モデルエージェントの調整:教師付き微調整アプローチ
- Authors: Wei Lu, Daniel L. Chen, Christian B. Hansen,
- Abstract要約: 標準経済ゲームを用いて,大規模言語モデル (LLM) の嗜好を評価する。
GPT-4oのようなモデルは過剰な協力とインセンティブの感度の制限を示す一方、o3-miniのような推論モデルは、ペイオフ最大化戦略とより一貫して一致している。
本稿では,LLMエージェントを経済的嗜好と整合させるため,経済的推論から得られた合成データセットを用いた教師付き微調整パイプラインを提案する。
- 参考スコア(独自算出の注目度): 4.389938747401259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding how large language model (LLM) agents behave in strategic interactions is essential as these systems increasingly participate autonomously in economically and morally consequential decisions. We evaluate LLM preferences using canonical economic games, finding substantial deviations from human behavior. Models like GPT-4o show excessive cooperation and limited incentive sensitivity, while reasoning models, such as o3-mini, align more consistently with payoff-maximizing strategies. We propose a supervised fine-tuning pipeline that uses synthetic datasets derived from economic reasoning to align LLM agents with economic preferences, focusing on two stylized preference structures. In the first, utility depends only on individual payoffs (homo economicus), while utility also depends on a notion of Kantian universalizability in the second preference structure (homo moralis). We find that fine-tuning based on small datasets shifts LLM agent behavior toward the corresponding economic agent. We further assess the fine-tuned agents' behavior in two applications: Moral dilemmas involving autonomous vehicles and algorithmic pricing in competitive markets. These examples illustrate how different normative objectives embedded via realizations from structured preference structures can influence market and moral outcomes. This work contributes a replicable, cost-efficient, and economically grounded pipeline to align AI preferences using moral-economic principles.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントが戦略的相互作用においてどのように振る舞うかを理解することは不可欠である。
我々は、標準的な経済ゲームを用いてLLMの嗜好を評価し、人間の行動からかなり逸脱することを発見した。
GPT-4oのようなモデルは過剰な協力とインセンティブの感度の制限を示す一方、o3-miniのような推論モデルは、ペイオフ最大化戦略とより一貫して一致している。
本稿では,LLMエージェントを経済的嗜好と整合させるため,経済推論から得られた合成データセットを用いた教師付き微調整パイプラインを提案する。
第一に、実用性は個々の支払(ホモ・エコノミクス)にのみ依存するが、実用性は第二の選好構造(ホモ・モラル)におけるカント的普遍性の概念にも依存する。
小データセットに基づく微調整は, LLMエージェントの挙動を対応する経済エージェントにシフトさせる。
さらに、自律走行車を含むモラルジレンマと競争市場におけるアルゴリズム価格の2つのアプリケーションにおいて、微調整されたエージェントの挙動を評価する。
これらの例は、構造化された嗜好構造から実現することで、異なる規範的目的が市場や道徳的成果にどのように影響するかを示している。
この研究は、道徳経済の原則を使ってAIの好みを調整するための、レプリカで費用効率が高く、経済的に根ざしたパイプラインに貢献している。
関連論文リスト
- GLEE: A Unified Framework and Benchmark for Language-based Economic Environments [19.366120861935105]
大規模言語モデル(LLM)は、経済的および戦略的相互作用において大きな可能性を示す。
これらの疑問は、LLMベースのエージェントを実世界のデータ駆動システムに統合することの経済的および社会的意味について重要なものとなっている。
本稿では,2プレイヤー,シーケンシャル,言語ベースのゲームの研究を標準化するためのベンチマークを紹介する。
論文 参考訳(メタデータ) (2024-10-07T17:55:35Z) - Moral Alignment for LLM Agents [3.7414804164475983]
我々は,人間の中心的価値を明確にかつ透過的にエンコードする報酬関数の設計を導入する。
我々は,Deontological EthicsとUtilitarianismの伝統的な哲学的枠組みを用いて,我々のアプローチを評価する。
我々は、エージェントが以前開発された自己中心的な戦略を解き放つことを可能にするために、いかに道徳的な微調整を展開できるかを示す。
論文 参考訳(メタデータ) (2024-10-02T15:09:36Z) - Exploring and steering the moral compass of Large Language Models [55.2480439325792]
大規模言語モデル(LLM)は、様々な分野における自動化と意思決定の推進の中心となっている。
本研究は,その道徳的特徴を評価するために,最も先進的なLCMの総合的比較分析を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:49:22Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z) - Finding General Equilibria in Many-Agent Economic Simulations Using Deep
Reinforcement Learning [72.23843557783533]
本研究では,エージェント種別のメタゲームに対して,エプシロン・ナッシュ平衡である安定解を求めることができることを示す。
私たちのアプローチはより柔軟で、例えば市場クリア化のような非現実的な仮定は必要ありません。
当社のアプローチは、実際のビジネスサイクルモデル、DGEモデルの代表的なファミリー、100人の労働者消費者、10社の企業、税金と再分配を行う政府で実証しています。
論文 参考訳(メタデータ) (2022-01-03T17:00:17Z) - The AI Economist: Optimal Economic Policy Design via Two-level Deep
Reinforcement Learning [126.37520136341094]
機械学習に基づく経済シミュレーションは強力な政策・メカニズム設計の枠組みであることを示す。
AIエコノミスト(AI Economist)は、エージェントと共同適応するソーシャルプランナーの両方を訓練する2段階のディープRLフレームワークである。
単純な一段階の経済では、AIエコノミストは経済理論の最適税制を回復する。
論文 参考訳(メタデータ) (2021-08-05T17:42:35Z) - Decentralized Reinforcement Learning: Global Decision-Making via Local
Economic Transactions [80.49176924360499]
我々は、シーケンシャルな意思決定問題を解決するために、単純で専門的で自己関心のあるエージェントの社会を指示する枠組みを確立する。
我々は分散強化学習アルゴリズムのクラスを導出する。
我々は、より効率的な移動学習のための社会固有のモジュラー構造の潜在的な利点を実証する。
論文 参考訳(メタデータ) (2020-07-05T16:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。