論文の概要: From Delegates to Trustees: How Optimizing for Long-Term Interests Shapes Bias and Alignment in LLM
- arxiv url: http://arxiv.org/abs/2510.12689v1
- Date: Tue, 14 Oct 2025 16:24:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.390358
- Title: From Delegates to Trustees: How Optimizing for Long-Term Interests Shapes Bias and Alignment in LLM
- Title(参考訳): デリゲートからトラストへ - LLMにおける長期利害関係者のバイアスとアライメントの最適化
- Authors: Suyash Fulay, Jocelyn Zhu, Michiel Bakker,
- Abstract要約: 我々は、AIシステムが委譲、表現された嗜好の反映、あるいは受託者として振る舞うべきかどうかを調査する。
長期的利益に重きを置く受託者スタイルの予測は、よく理解された問題に関する専門家のコンセンサスとより緊密に一致した政策決定を生み出す。
これらの発見は、人間の興味を表すAIシステムを設計する際の根本的なトレードオフを明らかにしている。
- 参考スコア(独自算出の注目度): 0.5902684051239003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown promising accuracy in predicting survey responses and policy preferences, which has increased interest in their potential to represent human interests in various domains. Most existing research has focused on behavioral cloning, effectively evaluating how well models reproduce individuals' expressed preferences. Drawing on theories of political representation, we highlight an underexplored design trade-off: whether AI systems should act as delegates, mirroring expressed preferences, or as trustees, exercising judgment about what best serves an individual's interests. This trade-off is closely related to issues of LLM sycophancy, where models can encourage behavior or validate beliefs that may be aligned with a user's short-term preferences, but is detrimental to their long-term interests. Through a series of experiments simulating votes on various policy issues in the U.S. context, we apply a temporal utility framework that weighs short and long-term interests (simulating a trustee role) and compare voting outcomes to behavior-cloning models (simulating a delegate). We find that trustee-style predictions weighted toward long-term interests produce policy decisions that align more closely with expert consensus on well-understood issues, but also show greater bias toward models' default stances on topics lacking clear agreement. These findings reveal a fundamental trade-off in designing AI systems to represent human interests. Delegate models better preserve user autonomy but may diverge from well-supported policy positions, while trustee models can promote welfare on well-understood issues yet risk paternalism and bias on subjective topics.
- Abstract(参考訳): 大規模言語モデル(LLM)は,調査回答や政策選好を予測する上で有望な精度を示した。
既存のほとんどの研究は行動クローニングに焦点を合わせ、モデルが個人の表現された好みをいかにうまく再現するかを効果的に評価してきた。
AIシステムはデリゲートとして振る舞うべきか、表現された嗜好を反映すべきか、あるいは信頼者として振る舞うべきか、個人の利益に最適なものについて判断を下すべきか。
このトレードオフは、LLM sycophancyの問題と密接に関連しており、モデルがユーザーの短期的嗜好に沿った行動や信念を検証することができるが、長期的な関心を損なう。
米国における様々な政策問題に対する投票をシミュレートする一連の実験を通じて、短期的・長期的利益(受託者の役割のシミュレート)を重み付け、投票結果と行動閉鎖モデル(委任者のシミュレート)を比較する。
長期的利害に重きが置かれた委託者スタイルの予測は、専門家の理解した問題に対するコンセンサスとより緊密に一致した政策決定を生み出すが、明確な合意を欠いたトピックに対するモデルデフォルトのスタンスに対してより偏見を示す。
これらの発見は、人間の興味を表すAIシステムを設計する際の根本的なトレードオフを明らかにしている。
デリゲートモデルは、ユーザの自律性をよりよく保存するが、十分に支持された政策ポジションから外れる可能性がある一方、トラストモデルは、よく理解された問題に対する福祉を促進することができるが、父系愛国主義のリスクと主観的なトピックに対する偏見がある。
関連論文リスト
- Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。
因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。
そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文 参考訳(メタデータ) (2025-06-06T10:45:42Z) - Think Again! The Effect of Test-Time Compute on Preferences, Opinions, and Beliefs of Large Language Models [6.9347404883379316]
大規模言語モデル(LLM)は、ますます人間の生活に統合され、意思決定に影響を及ぼしている。
主観的嗜好、意見、信念をどの程度、どの程度提示するかを評価することが不可欠である。
本稿では、社会的、文化的、倫理的、個人的領域にまたがるLLMの主観的傾向を評価するために、POB(Preference, Opinion, and Belief Survey)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:41:21Z) - Bias in Decision-Making for AI's Ethical Dilemmas: A Comparative Study of ChatGPT and Claude [8.959468665453286]
本研究は,9つの人気言語モデルが保護属性を含む倫理ジレンマにどのように反応するかを体系的に評価する。
単一属性と交叉属性の組み合わせにまたがる50,400回の試行において、モデルの倫理的嗜好、感度、安定性、クラスタリングパターンを評価する。
結果は、モデルタイプとジレンマコンテキストによって異なる好みを持つ、すべてのモデルで保護属性に顕著なバイアスが示される。
論文 参考訳(メタデータ) (2025-01-17T05:20:38Z) - Beyond Partisan Leaning: A Comparative Analysis of Political Bias in Large Language Models [6.549047699071195]
本研究では、大規模言語モデルにおける政治的行動を評価するために、ペルソナフリーでトピック固有のアプローチを採用する。
米国、ヨーロッパ、中国、中東で開発された43の大規模言語モデルからの反応を分析した。
発見は、ほとんどのモデルが中心左あるいは左イデオロギー的にリーンであり、非党派的エンゲージメントパターンが異なることを示している。
論文 参考訳(メタデータ) (2024-12-21T19:42:40Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Biased AI can Influence Political Decision-Making [64.9461133083473]
本稿では,大言語モデル(LLM)におけるパルチザンバイアスが政治的意見や意思決定に与える影響について検討する。
その結果,党派偏見モデルに曝露した参加者は,LLMの偏見と一致した意見を取り入れ,決定を下す可能性が有意に高いことがわかった。
論文 参考訳(メタデータ) (2024-10-08T22:56:00Z) - Long-Term Fairness in Sequential Multi-Agent Selection with Positive Reinforcement [21.44063458579184]
大学入学や採用のような選抜プロセスでは、少数派からの応募者に対する偏見は肯定的なフィードバックをもたらすと仮定される。
グリーディスコアとフェアネスのバランスをとるマルチエージェント・フェア・グリーディ政策を提案する。
以上の結果から, 正の強化は長期的公正性にとって有望なメカニズムであるが, 進化モデルの変動に頑健な政策を慎重に設計する必要があることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T04:03:23Z) - Whose Side Are You On? Investigating the Political Stance of Large Language Models [56.883423489203786]
大規模言語モデル(LLM)の政治的指向性について,8つのトピックのスペクトルにわたって検討する。
我々の調査は、中絶からLGBTQ問題まで8つのトピックにまたがるLLMの政治的整合性について考察している。
この結果から,ユーザはクエリ作成時に留意すべきであり,中立的なプロンプト言語を選択する際には注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-15T04:02:24Z) - Joint Optimization of AI Fairness and Utility: A Human-Centered Approach [45.04980664450894]
我々は、異なる公正基準を同時に満たすことができないことがあるため、これらの目標間のトレードオフをどう行うかという人間の政策立案者の好みに固執することが鍵であると主張している。
このような嗜好を抽出し、これらの嗜好に応じてAIモデルを最適化するためのフレームワークといくつかの模範的手法を提案する。
論文 参考訳(メタデータ) (2020-02-05T03:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。