論文の概要: On the Credibility of Evaluating LLMs using Survey Questions
- arxiv url: http://arxiv.org/abs/2602.04033v1
- Date: Tue, 03 Feb 2026 21:45:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.287432
- Title: On the Credibility of Evaluating LLMs using Survey Questions
- Title(参考訳): アンケート調査によるLCMの評価の信頼性について
- Authors: Jindřich Libovický,
- Abstract要約: 近年,大規模言語モデル(LLM)の価値指向を適応型社会調査を用いて評価している。
本稿では, 正確な設定に依存して, 値配向の類似性を過小評価し, 過度に見積もることの限界を明らかにする。
5か国3ヶ国における世界価値調査(World Value Survey)を用いて、直接対思考の連鎖(direct vs. chain-of-thinkt)と復号戦略(greedy vs. sample)が結果に有意な影響を及ぼすことを示した。
- 参考スコア(独自算出の注目度): 0.42061757959666934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies evaluate the value orientation of large language models (LLMs) using adapted social surveys, typically by prompting models with survey questions and comparing their responses to average human responses. This paper identifies limitations in this methodology that, depending on the exact setup, can lead to both underestimating and overestimating the similarity of value orientation. Using the World Value Survey in three languages across five countries, we demonstrate that prompting methods (direct vs. chain-of-thought) and decoding strategies (greedy vs. sampling) significantly affect results. To assess the interaction between answers, we introduce a novel metric, self-correlation distance. This metric measures whether LLMs maintain consistent relationships between answers across different questions, as humans do. This indicates that even a high average agreement with human data, when considering LLM responses independently, does not guarantee structural alignment in responses. Additionally, we reveal a weak correlation between two common evaluation metrics, mean-squared distance and KL divergence, which assume that survey answers are independent of each other. For future research, we recommend CoT prompting, sampling-based decoding with dozens of samples, and robust analysis using multiple metrics, including self-correlation distance.
- Abstract(参考訳): 近年の研究では、適応型社会調査を用いて、大規模言語モデル(LLM)の価値指向を評価する。
本稿では, 正確な設定に依存して, 値指向の類似性を過小評価し, 過大評価することが可能であることを示す。
5か国3ヶ国における世界価値調査(World Value Survey)を用いて、直接対思考の連鎖(direct vs. chain-of-thinkt)と復号戦略(greedy vs. sample)が結果に有意な影響を及ぼすことを示した。
回答間の相互作用を評価するために,新しいメトリクス,自己相関距離を導入する。
この測定基準は、LLMが人間がしているように、異なる質問の回答間の一貫した関係を保っているかどうかを測定する。
このことは、LLM応答を独立に考慮しても、人間のデータに対する高い平均的な合意でさえ、応答の構造的アライメントを保証していないことを示している。
さらに、平均二乗距離とKL偏差という2つの共通評価指標の弱い相関関係を明らかにし、調査回答が互いに独立であると仮定する。
今後の研究のために、CoTプロンプト、数十のサンプルによるサンプリングベースのデコード、自己相関距離を含む複数のメトリクスを用いた堅牢な分析を推奨する。
関連論文リスト
- Estimating LLM Consistency: A User Baseline vs Surrogate Metrics [13.001452293293596]
大型言語モデル(LLM)は幻覚や敏感な摂動を引き起こす傾向がある。
本稿では,LLMの一貫性を推定するためのロジットに基づくアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2025-05-26T16:53:47Z) - Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - Evaluating the Efficacy of Foundational Models: Advancing Benchmarking Practices to Enhance Fine-Tuning Decision-Making [1.3812010983144802]
本研究は,サイバーセキュリティ,医療,金融など多種多様な分野にわたる言語モデル(LLM)を評価する。
その結果,モデルサイズと推論に用いるプロンプトの種類は応答長と品質に大きく影響した。
論文 参考訳(メタデータ) (2024-06-25T20:52:31Z) - An unsupervised learning approach to evaluate questionnaire data -- what
one can learn from violations of measurement invariance [2.4762962548352467]
本稿では,このような研究データに対する教師なし学習に基づくアプローチを提案する。
データ準備、アンケートのクラスタリング、得られたクラスタリングと各グループの特性に基づいて類似度を測定する。
グループ間の自然な比較と、グループの応答パターンの自然な記述を提供する。
論文 参考訳(メタデータ) (2023-12-11T11:31:41Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。