Fugu-MT 論文翻訳(概要): Quantifying Data Contamination in Psychometric Evaluations of LLMs

論文の概要: Quantifying Data Contamination in Psychometric Evaluations of LLMs

arxiv url: http://arxiv.org/abs/2510.07175v1
Date: Wed, 08 Oct 2025 16:16:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-09 16:41:20.614375
Title: Quantifying Data Contamination in Psychometric Evaluations of LLMs
Title（参考訳）: LLMの心理的評価におけるデータ汚染の定量化
Authors: Jongwook Han, Woojung Song, Jonggeun Lee, Yohan Jo,
Abstract要約: 大規模言語モデル(LLM)の心理測定評価におけるデータ汚染を測定する枠組みを提案する。この枠組みを、メジャーファミリーの21モデルと、広く使用されている4つのサイコメトリックインベントリに適用することにより、人気のあるインベントリが強い汚染を示す証拠を提供する。
参考スコア（独自算出の注目度）: 13.528776782604107
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent studies apply psychometric questionnaires to Large Language Models (LLMs) to assess high-level psychological constructs such as values, personality, moral foundations, and dark traits. Although prior work has raised concerns about possible data contamination from psychometric inventories, which may threaten the reliability of such evaluations, there has been no systematic attempt to quantify the extent of this contamination. To address this gap, we propose a framework to systematically measure data contamination in psychometric evaluations of LLMs, evaluating three aspects: (1) item memorization, (2) evaluation memorization, and (3) target score matching. Applying this framework to 21 models from major families and four widely used psychometric inventories, we provide evidence that popular inventories such as the Big Five Inventory (BFI-44) and Portrait Values Questionnaire (PVQ-40) exhibit strong contamination, where models not only memorize items but can also adjust their responses to achieve specific target scores.
Abstract（参考訳）: 近年の研究では、心理学的アンケートを大規模言語モデル(LLM)に適用し、価値、個性、道徳的基礎、暗黒な特徴などの高いレベルの心理的構成を評価する。これまでの研究は、このような評価の信頼性を脅かすかもしれない精神測定の在庫からデータ汚染の可能性への懸念を提起してきたが、この汚染の程度を定量化するための体系的な試みは行われていない。このギャップに対処するため,LLMの心理測定評価において,(1)項目記憶,(2)評価記憶,(3)目標スコアマッチングの3つの側面を評価することにより,データの汚染を系統的に測定する枠組みを提案する。この枠組みを、メジャーファミリーの21モデルと、広く使用されている4つのサイコメトリック・インベントリに適用することにより、ビッグファイブ・インベントリ(BFI-44)やポートレート・バリューズ・インポーテーション(PVQ-40)といった一般的な在庫が強力な汚染を示しており、モデルがアイテムを記憶するだけでなく、その反応を調整して特定の目標スコアを達成できることを示す。

関連論文リスト

ALIGNS: Unlocking nomological networks in psychological measurement through a large language model [0.9696659544494058]
本稿では,評価されたアンケート尺度を訓練した大規模言語モデルベースシステム,ALIGNS の生成のための潜時指標分析について紹介する。 ALIGNSは心理学、医学、社会政策、その他の分野にまたがる550,000以上の指標を含む3つの包括的なノモロジーネットワークを提供している。これは、測定バリデーションにおける基礎的な問題を解決するために、大きな言語モデルの最初の応用である。
論文参考訳（メタデータ） (2025-09-10T04:21:02Z)
mFARM: Towards Multi-Faceted Fairness Assessment based on HARMs in Clinical Decision Support [10.90604216960609]
大規模言語モデル(LLM)の高度な医療環境への展開は、AIアライメントの重要な課題である。既存の公正性評価手法は、医療被害の多次元的な性質を無視する単純な指標を使用するため、これらの文脈では不十分である。本稿では,hARMs(mFARM$)に基づく多面的公正度評価(マルチメトリック・フェアネス・アセスメント)を提案する。提案した$mFARM$のメトリクスは、さまざまな設定下でより効果的に微妙なバイアスをキャプチャします。
論文参考訳（メタデータ） (2025-09-02T06:47:57Z)
LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。 LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。 LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文参考訳（メタデータ） (2025-08-07T14:46:30Z)
KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。 5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文参考訳（メタデータ） (2024-02-23T01:30:39Z)
Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文参考訳（メタデータ） (2022-12-15T17:26:05Z)
Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文参考訳（メタデータ） (2021-10-28T17:46:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。