論文の概要: Generative Value Conflicts Reveal LLM Priorities
- arxiv url: http://arxiv.org/abs/2509.25369v1
- Date: Mon, 29 Sep 2025 18:19:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.263009
- Title: Generative Value Conflicts Reveal LLM Priorities
- Title(参考訳): Generative Value Conflicts Reveal LLM Priorities
- Authors: Andy Liu, Kshitish Ghate, Mona Diab, Daniel Fried, Atoosa Kasirzadeh, Max Kleiman-Weiner,
- Abstract要約: 我々は、言語モデルが異なる値をどのように優先順位付けするかを評価する自動パイプラインであるConflictScopeを紹介した。
ユーザ定義の値セットが与えられた場合、ConflictScopeは、言語モデルがセットからサンプリングされた2つの値間の競合に直面するシナリオを自動的に生成する。
モデルでは、無害などの保護的価値のサポートから、ユーザーの自律性などの個人的価値のサポートへと、よりオープンな価値紛争設定へと移行している。
- 参考スコア(独自算出の注目度): 33.58036879866279
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Past work seeks to align large language model (LLM)-based assistants with a target set of values, but such assistants are frequently forced to make tradeoffs between values when deployed. In response to the scarcity of value conflict in existing alignment datasets, we introduce ConflictScope, an automatic pipeline to evaluate how LLMs prioritize different values. Given a user-defined value set, ConflictScope automatically generates scenarios in which a language model faces a conflict between two values sampled from the set. It then prompts target models with an LLM-written "user prompt" and evaluates their free-text responses to elicit a ranking over values in the value set. Comparing results between multiple-choice and open-ended evaluations, we find that models shift away from supporting protective values, such as harmlessness, and toward supporting personal values, such as user autonomy, in more open-ended value conflict settings. However, including detailed value orderings in models' system prompts improves alignment with a target ranking by 14%, showing that system prompting can achieve moderate success at aligning LLM behavior under value conflict. Our work demonstrates the importance of evaluating value prioritization in models and provides a foundation for future work in this area.
- Abstract(参考訳): 過去の作業では、大きな言語モデル(LLM)ベースのアシスタントを目標値のセットに整合させようとするが、そのようなアシスタントは、デプロイ時に値間のトレードオフを強制されることが多い。
既存のアライメントデータセットにおけるバリューコンフリクトの不足に対して、私たちは、LLMが異なる値をどのように優先順位付けするかを評価する自動パイプラインであるConflictScopeを紹介します。
ユーザ定義の値セットが与えられた場合、ConflictScopeは、言語モデルがセットからサンプリングされた2つの値間の競合に直面するシナリオを自動的に生成する。
次に、LLMで書かれた"user prompt"でターゲットモデルをプロンプトし、自由テキスト応答を評価して値セットの値よりもランク付けする。
複数選択とオープンエンド評価の結果を比較すると、モデルが無害などの保護的価値から脱却し、ユーザーの自律性などの個人的価値を、よりオープンエンドなバリューコンフリクト設定で支援することを発見した。
しかしながら、モデルシステムの詳細な値順序付けを含むと、目標ランクとの整合性は14%向上し、システムプロンプトは、値衝突下でのLCMの振舞いの整合性を適度に達成できることを示す。
我々の研究は、モデルにおける価値の優先順位付けを評価することの重要性を示し、この分野における将来の研究の基盤を提供する。
関連論文リスト
- Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。
人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文 参考訳(メタデータ) (2025-07-17T18:56:41Z) - Value Portrait: Assessing Language Models' Values through Psychometrically and Ecologically Valid Items [2.9357382494347264]
既存のベンチマークは、価値関連のバイアスに弱い人や機械のアノテーションに依存している。
本稿では,実生活におけるユーザ-LLMインタラクションをキャプチャするアイテムからなるValue Portraitベンチマークを提案する。
この心理的に検証されたアプローチは、特定の値と強く相関したアイテムがそれらの値を評価するための信頼できるアイテムとして機能することを保証する。
論文 参考訳(メタデータ) (2025-05-02T05:26:50Z) - Value Compass Benchmarks: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は驚くべきブレークスルーを達成する。
価値を人間に合わせることは 責任ある開発に欠かせないものになっています
3つの望ましい目標を達成するLLMの評価はいまだに欠けている。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - CLAVE: An Adaptive Framework for Evaluating Values of LLM Generated Responses [34.77031649891843]
CLAVEは2つの補完的なLarge Language Model(LLM)を統合する新しいフレームワークである。
このデュアルモデルアプローチは、値タイプ当たり100個の人ラベルサンプルを使用して、任意の値システムでキャリブレーションを可能にする。
ValEvalは13k+(text,value,label)12+を多種多様なドメインで構成し、3つの主要なバリューシステムをカバーする包括的データセットである。
論文 参考訳(メタデータ) (2024-07-15T13:51:37Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。