論文の概要: Revisiting LLM Value Probing Strategies: Are They Robust and Expressive?
- arxiv url: http://arxiv.org/abs/2507.13490v1
- Date: Thu, 17 Jul 2025 18:56:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.116557
- Title: Revisiting LLM Value Probing Strategies: Are They Robust and Expressive?
- Title(参考訳): LLMの価値検証戦略を再考する: それらはロバストで表現力があるか?
- Authors: Siqi Shen, Mehar Singh, Lajanugen Logeswaran, Moontae Lee, Honglak Lee, Rada Mihalcea,
- Abstract要約: 広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。
人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
- 参考スコア(独自算出の注目度): 81.49470136653665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been extensive research on assessing the value orientation of Large Language Models (LLMs) as it can shape user experiences across demographic groups. However, several challenges remain. First, while the Multiple Choice Question (MCQ) setting has been shown to be vulnerable to perturbations, there is no systematic comparison of probing methods for value probing. Second, it is unclear to what extent the probed values capture in-context information and reflect models' preferences for real-world actions. In this paper, we evaluate the robustness and expressiveness of value representations across three widely used probing strategies. We use variations in prompts and options, showing that all methods exhibit large variances under input perturbations. We also introduce two tasks studying whether the values are responsive to demographic context, and how well they align with the models' behaviors in value-related scenarios. We show that the demographic context has little effect on the free-text generation, and the models' values only weakly correlate with their preference for value-based actions. Our work highlights the need for a more careful examination of LLM value probing and awareness of its limitations.
- Abstract(参考訳): 大規模言語モデル(LLM)の価値オリエンテーションを評価するための広範な研究がなされている。
しかし、いくつかの課題が残っている。
第一に、マルチプルチョイス質問(MCQ)の設定は摂動に弱いことが示されているが、価値探索の手法の体系的な比較は行われていない。
第二に、調査対象の値がどのようにコンテキスト内情報をキャプチャし、実際の行動に対するモデルの好みを反映しているかは不明確である。
本稿では,3つの広く利用されている探索戦略における値表現の頑健さと表現性を評価する。
我々は命令とオプションのバリエーションを使用し、全てのメソッドが入力摂動の下で大きなばらつきを示すことを示す。
また、その値が人口統計学的文脈に反応するかどうか、また、価値関連シナリオにおけるモデルの振る舞いとどの程度うまく一致しているかを研究する2つのタスクについても紹介する。
人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
我々の研究は、LSMの価値をより慎重に調査し、その限界を意識することの必要性を強調します。
関連論文リスト
- Bridging the Gap: In-Context Learning for Modeling Human Disagreement [8.011316959982654]
大規模言語モデル(LLM)はNLP分類タスクにおいて高い性能を示している。
本研究では,LLMが複数の視点を捉えることができ,ヘイトスピーチや攻撃的言語検出などの主観的タスクにおいてアノテータの不一致を反映できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-06-06T14:24:29Z) - Verbosity $\neq$ Veracity: Demystify Verbosity Compensation Behavior of Large Language Models [8.846200844870767]
大規模言語モデル(LLM)の好ましくない振る舞いの下位タイプを発見する。
我々はVerbosity Compensation (VC) を不確実性下での人間の鎮静行動と類似しているとしている。
本稿では, 冗長応答を他のモデル生成応答に置き換える, 単純で効果的なカスケードアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-12T15:15:20Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - CLAVE: An Adaptive Framework for Evaluating Values of LLM Generated Responses [34.77031649891843]
CLAVEは2つの補完的なLarge Language Model(LLM)を統合する新しいフレームワークである。
このデュアルモデルアプローチは、値タイプ当たり100個の人ラベルサンプルを使用して、任意の値システムでキャリブレーションを可能にする。
ValEvalは13k+(text,value,label)12+を多種多様なドメインで構成し、3つの主要なバリューシステムをカバーする包括的データセットである。
論文 参考訳(メタデータ) (2024-07-15T13:51:37Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。