論文の概要: Quantifying Data Contamination in Psychometric Evaluations of LLMs
- arxiv url: http://arxiv.org/abs/2510.07175v1
- Date: Wed, 08 Oct 2025 16:16:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.614375
- Title: Quantifying Data Contamination in Psychometric Evaluations of LLMs
- Title(参考訳): LLMの心理的評価におけるデータ汚染の定量化
- Authors: Jongwook Han, Woojung Song, Jonggeun Lee, Yohan Jo,
- Abstract要約: 大規模言語モデル(LLM)の心理測定評価におけるデータ汚染を測定する枠組みを提案する。
この枠組みを、メジャーファミリーの21モデルと、広く使用されている4つのサイコメトリックインベントリに適用することにより、人気のあるインベントリが強い汚染を示す証拠を提供する。
- 参考スコア(独自算出の注目度): 13.528776782604107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies apply psychometric questionnaires to Large Language Models (LLMs) to assess high-level psychological constructs such as values, personality, moral foundations, and dark traits. Although prior work has raised concerns about possible data contamination from psychometric inventories, which may threaten the reliability of such evaluations, there has been no systematic attempt to quantify the extent of this contamination. To address this gap, we propose a framework to systematically measure data contamination in psychometric evaluations of LLMs, evaluating three aspects: (1) item memorization, (2) evaluation memorization, and (3) target score matching. Applying this framework to 21 models from major families and four widely used psychometric inventories, we provide evidence that popular inventories such as the Big Five Inventory (BFI-44) and Portrait Values Questionnaire (PVQ-40) exhibit strong contamination, where models not only memorize items but can also adjust their responses to achieve specific target scores.
- Abstract(参考訳): 近年の研究では、心理学的アンケートを大規模言語モデル(LLM)に適用し、価値、個性、道徳的基礎、暗黒な特徴などの高いレベルの心理的構成を評価する。
これまでの研究は、このような評価の信頼性を脅かすかもしれない精神測定の在庫からデータ汚染の可能性への懸念を提起してきたが、この汚染の程度を定量化するための体系的な試みは行われていない。
このギャップに対処するため,LLMの心理測定評価において,(1)項目記憶,(2)評価記憶,(3)目標スコアマッチングの3つの側面を評価することにより,データの汚染を系統的に測定する枠組みを提案する。
この枠組みを、メジャーファミリーの21モデルと、広く使用されている4つのサイコメトリック・インベントリに適用することにより、ビッグファイブ・インベントリ(BFI-44)やポートレート・バリューズ・インポーテーション(PVQ-40)といった一般的な在庫が強力な汚染を示しており、モデルがアイテムを記憶するだけでなく、その反応を調整して特定の目標スコアを達成できることを示す。
関連論文リスト
- EQ-5D Classification Using Biomedical Entity-Enriched Pre-trained Language Models and Multiple Instance Learning [0.42970700836450487]
健康経済学において、体系的な文献レビューは、EQ-5Dを使用する出版物の正しい識別に依存している。
大量の科学文献の手作業によるスクリーニングは、時間を要する、エラーを起こし、一貫性がない。
本研究では,汎用言語モデル(BERT)とドメイン固有言語モデル(SciBERT, BioBERT)の微調整について検討する。
論文 参考訳(メタデータ) (2026-01-30T20:10:34Z) - ALIGNS: Unlocking nomological networks in psychological measurement through a large language model [0.9696659544494058]
本稿では,評価されたアンケート尺度を訓練した大規模言語モデルベースシステム,ALIGNS の生成のための潜時指標分析について紹介する。
ALIGNSは心理学、医学、社会政策、その他の分野にまたがる550,000以上の指標を含む3つの包括的なノモロジーネットワークを提供している。
これは、測定バリデーションにおける基礎的な問題を解決するために、大きな言語モデルの最初の応用である。
論文 参考訳(メタデータ) (2025-09-10T04:21:02Z) - mFARM: Towards Multi-Faceted Fairness Assessment based on HARMs in Clinical Decision Support [10.90604216960609]
大規模言語モデル(LLM)の高度な医療環境への展開は、AIアライメントの重要な課題である。
既存の公正性評価手法は、医療被害の多次元的な性質を無視する単純な指標を使用するため、これらの文脈では不十分である。
本稿では,hARMs(mFARM$)に基づく多面的公正度評価(マルチメトリック・フェアネス・アセスメント)を提案する。
提案した$mFARM$のメトリクスは、さまざまな設定下でより効果的に微妙なバイアスをキャプチャします。
論文 参考訳(メタデータ) (2025-09-02T06:47:57Z) - LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。
私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。