論文の概要: Quantifying and Mitigating Socially Desirable Responding in LLMs: A Desirability-Matched Graded Forced-Choice Psychometric Study
- arxiv url: http://arxiv.org/abs/2602.17262v1
- Date: Thu, 19 Feb 2026 11:07:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.930003
- Title: Quantifying and Mitigating Socially Desirable Responding in LLMs: A Desirability-Matched Graded Forced-Choice Psychometric Study
- Title(参考訳): LLMにおける社会的好ましくない応答の定量化と緩和 : 求心性に整合した段階的強勢心電図による検討
- Authors: Kensuke Okada, Yui Furukawa, Kyosuke Bunji,
- Abstract要約: ヒトの自己報告アンケートは、大規模な言語モデルのベンチマークと監査に、NLPでますます使われている。
本研究では,大規模言語モデルの質問紙による評価において,SDRの定量化と緩和を目的とした心理測定フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human self-report questionnaires are increasingly used in NLP to benchmark and audit large language models (LLMs), from persona consistency to safety and bias assessments. Yet these instruments presume honest responding; in evaluative contexts, LLMs can instead gravitate toward socially preferred answers-a form of socially desirable responding (SDR)-biasing questionnaire-derived scores and downstream conclusions. We propose a psychometric framework to quantify and mitigate SDR in questionnaire-based evaluation of LLMs. To quantify SDR, the same inventory is administered under HONEST versus FAKE-GOOD instructions, and SDR is computed as a direction-corrected standardized effect size from item response theory (IRT)-estimated latent scores. This enables comparisons across constructs and response formats, as well as against human instructed-faking benchmarks. For mitigation, we construct a graded forced-choice (GFC) Big Five inventory by selecting 30 cross-domain pairs from an item pool via constrained optimization to match desirability. Across nine instruction-tuned LLMs evaluated on synthetic personas with known target profiles, Likert-style questionnaires show consistently large SDR, whereas desirability-matched GFC substantially attenuates SDR while largely preserving the recovery of the intended persona profiles. These results highlight a model-dependent SDR-recovery trade-off and motivate SDR-aware reporting practices for questionnaire-based benchmarking and auditing of LLMs.
- Abstract(参考訳): ヒトの自己報告アンケートは、ペルソナの一貫性から安全性やバイアス評価に至るまで、大きな言語モデル(LLM)をベンチマークし、評価するために、NLPでますます使われている。
評価的文脈では、LLMは社会的に好まれる回答(社会に望ましい応答(SDR)の形式であり、アンケートに基づくスコアとダウンストリームの結論に導かれる。
LLMの質問紙評価におけるSDRの定量化と緩和のための心理測定フレームワークを提案する。
SDRを定量化するために、HONESTとFAKE-GOOD命令で同じ在庫を管理し、アイテム応答理論(IRT)推定潜在スコアから方向補正された標準効果サイズとしてSDRを算出する。
これにより、コンストラクタとレスポンスフォーマットをまたいだ比較や、人間の指示されたフェイキングベンチマークの比較が可能になる。
緩和のために,制約付き最適化によりアイテムプールから30個のクロスドメインペアを選択し,所望の条件に合わせることで,グレードドド・強制選択(GFC)ビッグファイブインベントリを構築する。
ターゲットプロファイルが既知の合成ペルソナを用いて評価された9つのLLMのうち,Likertスタイルの質問票は一貫してSDRを示し,好ましく整合したGFCは目的のペルソナプロファイルの回復をほぼ保ちながらSDRを大幅に減衰させる。
これらの結果は、モデルに依存したSDR回収トレードオフを浮き彫りにして、LCMのアンケートと監査のためのSDR対応報告プラクティスを動機付けている。
関連論文リスト
- Completing Missing Annotation: Multi-Agent Debate for Accurate and Scalable Relevant Assessment for IR Benchmarks [31.017987800426894]
DREAMはLLMエージェントを用いた多段階の議論に基づく関連性評価フレームワークである。
95.2%の精度で、人間の3.5%しか関与していない。
BRIDGEは評価バイアスを緩和し、より公平なレトリバー比較を可能にする改良されたベンチマークである。
論文 参考訳(メタデータ) (2026-02-06T09:27:03Z) - SSR: Socratic Self-Refine for Large Language Model Reasoning [78.62319252287938]
Socratic Self-Refine (SSR)は、大規模言語モデル(LLM)のきめ細かい評価と精度向上のための新しいフレームワークである。
提案したSSRはモデル応答を検証可能な(サブクエスト,サブサブアンサー)ペアに分解し,ステップレベルの信頼度推定を可能にする。
5つの推論ベンチマークと3つのLCMによる実証的な結果から、SSRは一貫して最先端の反復的自己修正ベースラインを上回っていることが分かる。
論文 参考訳(メタデータ) (2025-11-13T18:47:07Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering [12.879551933541345]
大規模言語モデル評価のための動的アロケーションフレームワーク(DAFE)を提案する。
DAFEは2つの主要なLCM-as-judgesを採用し、不一致の場合のみ第3の仲裁を行う。
DAFEが一貫した、スケーラブルで、リソース効率の高いアセスメントを提供する能力を示す。
論文 参考訳(メタデータ) (2025-03-11T15:29:55Z) - Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。
人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文 参考訳(メタデータ) (2024-12-12T13:31:58Z) - Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response [56.25966921370483]
大規模な言語モデルに基づく参照不要評価器の使用には課題がある。
参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。
対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
論文 参考訳(メタデータ) (2023-05-24T02:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。