論文の概要: Do Language Models Think Consistently? A Study of Value Preferences Across Varying Response Lengths
- arxiv url: http://arxiv.org/abs/2506.02481v1
- Date: Tue, 03 Jun 2025 05:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.308126
- Title: Do Language Models Think Consistently? A Study of Value Preferences Across Varying Response Lengths
- Title(参考訳): 言語モデルは一貫して考えるか? : 応答長の異なる値の選好について
- Authors: Inderjeet Nair, Lu Wang,
- Abstract要約: 短い形式のテストから推測される値の選好は、長い形式のアウトプットで表されるものと一致しますか?
短文の反応と長文の反応から得られる値の選好を比較し、後者の引数の数を変えて、ユーザの異なる冗長性選好を捉える。
- 参考スコア(独自算出の注目度): 4.928535836750263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluations of LLMs' ethical risks and value inclinations often rely on short-form surveys and psychometric tests, yet real-world use involves long-form, open-ended responses -- leaving value-related risks and preferences in practical settings largely underexplored. In this work, we ask: Do value preferences inferred from short-form tests align with those expressed in long-form outputs? To address this question, we compare value preferences elicited from short-form reactions and long-form responses, varying the number of arguments in the latter to capture users' differing verbosity preferences. Analyzing five LLMs (llama3-8b, gemma2-9b, mistral-7b, qwen2-7b, and olmo-7b), we find (1) a weak correlation between value preferences inferred from short-form and long-form responses across varying argument counts, and (2) similarly weak correlation between preferences derived from any two distinct long-form generation settings. (3) Alignment yields only modest gains in the consistency of value expression. Further, we examine how long-form generation attributes relate to value preferences, finding that argument specificity negatively correlates with preference strength, while representation across scenarios shows a positive correlation. Our findings underscore the need for more robust methods to ensure consistent value expression across diverse applications.
- Abstract(参考訳): LLMの倫理的リスクと価値観の傾向の評価は、しばしば短期的な調査や心理測定テストに頼っているが、実世界の利用には、長期にわたる、オープンな対応が伴う。
短い形式のテストから推測される値の選好は、長い形式の出力で表されるものと一致しているか?
この問題に対処するために、短い形式の反応と長い形式の反応から導かれる値の選好を比較し、後者の引数の数を変えて、ユーザの異なる冗長性選好を捉える。
5つのLLM (llama3-8b, gemma2-9b, mistral-7b, qwen2-7b, olmo-7b) を解析した結果, 1) 様々な引数数にまたがるショートフォームとロングフォームの応答から推定される値選好と,(2) 同様に2つの異なるロングフォーム生成設定から導出される選好の弱い相関が得られた。
(3)アライメントは値表現の整合性において、緩やかな利得しか得られない。
さらに,長文生成属性が値の嗜好とどのように関連しているかを考察し,議論の特異性は好みの強さと負の相関関係を示す一方,シナリオ間の表現は正の相関関係を示す。
我々の発見は、多様なアプリケーションにまたがる一貫性のある値表現を保証するための、より堅牢な方法の必要性を浮き彫りにしている。
関連論文リスト
- Evaluating LLM Adaptation to Sociodemographic Factors: User Profile vs. Dialogue History [33.47267548932745]
本稿では,マルチターン対話履歴を通じて,ユーザのプロファイルから属性が明示的に導入された場合,あるいは暗黙的に,大規模言語モデルの適応を評価するためのフレームワークを提案する。
以上の結果から,ほとんどのモデルでは,人口変動,特に年齢や教育水準に応じて表現値が調整されるが,一貫性は異なることが示唆された。
より強力な推論能力を持つモデルは、ロバストな社会デミノグラフィー適応における推論の重要性を示す。
論文 参考訳(メタデータ) (2025-05-27T15:52:39Z) - More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment [80.04449725137177]
直接選好最適化(DPO)は、人間のフィードバックによる強化学習の、シンプルで効果的な代替手段として登場した。
我々の研究は、DPOアライメントに関連する、目覚ましい、安全性に特有な現象を明らかにした。
選択されたペアと拒否されたペアに対してのみ自己生成されたレスポンスを使用することで、より強力なモデルからのレスポンスを含む構成を大幅に上回る。
論文 参考訳(メタデータ) (2025-04-03T00:36:40Z) - Beyond the Binary: Capturing Diverse Preferences With Reward Regularization [15.518838657050173]
この二項選択への依存は、現実のタスクにおいて対象ユーザのより広範囲で集約的な嗜好を捉えるものではない、と我々は主張する。
本稿では、既存の二分選好データセットを合成選好判断で拡張し、潜在的なユーザ不一致を推定する、シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-12-05T02:35:46Z) - Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization [60.176008034221404]
直接選好最適化(DPO)とその変種は、言語モデルと人間の選好の整合にますます利用されている。
以前の研究では、トレーニング中に好まれる反応の可能性が減少する傾向が見られた。
確率変位は破滅的になりうることを示し、確率質量を好ましくない反応から反対の意味の反応へとシフトさせる。
論文 参考訳(メタデータ) (2024-10-11T14:22:44Z) - Compare without Despair: Reliable Preference Evaluation with Generation Separability [20.50638483427141]
テストインスタンスがペアの選好評価にどの程度適しているかを推定する尺度であるセパビリティ(Separability)を導入する。
候補テストインスタンスでは、セパビリティは1組のモデルから複数の世代をサンプリングし、2つの世代がどの程度区別可能であるかを測定する。
実験により、分離性が高いインスタンスは、人間と自動レーダの両方からより一貫した選好格付けが得られることが示された。
論文 参考訳(メタデータ) (2024-07-02T01:37:56Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。