論文の概要: A Novel Framework for Augmenting Rating Scale Tests with LLM-Scored Text Data
- arxiv url: http://arxiv.org/abs/2510.08663v1
- Date: Thu, 09 Oct 2025 15:37:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.310231
- Title: A Novel Framework for Augmenting Rating Scale Tests with LLM-Scored Text Data
- Title(参考訳): LLM-Scored Text Dataによる評価尺度作成のための新しいフレームワーク
- Authors: Joe Watson, Ivan O'Conner, Chia-Wen Chen, Luning Sun, Fang Luo, David Stillwell,
- Abstract要約: この研究は、新しい概念的枠組みの中で定性的データを活用するために、最近の進歩を活用している。
そこで我々は,高校生の実世界サンプルを用いてフレームワークを開発し,評価する。
ホールドアウトテストセットでは、測定精度と精度が統計的に有意に向上した。
- 参考スコア(独自算出の注目度): 3.0707746668588545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Psychological assessments typically rely on structured rating scales, which cannot incorporate the rich nuance of a respondent's natural language. This study leverages recent LLM advances to harness qualitative data within a novel conceptual framework, combining LLM-scored text and traditional rating-scale items to create an augmented test. We demonstrate this approach using depression as a case study, developing and assessing the framework on a real-world sample of upper secondary students (n=693) and corresponding synthetic dataset (n=3,000). On held-out test sets, augmented tests achieved statistically significant improvements in measurement precision and accuracy. The information gain from the LLM items was equivalent to adding between 6.3 (real data) and 16.0 (synthetic data) items to the original 19-item test. Our approach marks a conceptual shift in automated scoring that bypasses its typical bottlenecks: instead of relying on pre-labelled data or complex expert-created rubrics, we empirically select the most informative LLM scoring instructions based on calculations of item information. This framework provides a scalable approach for leveraging the growing stream of transcribed text to enhance traditional psychometric measures, and we discuss its potential utility in clinical health and beyond.
- Abstract(参考訳): 心理学的評価は通常、構造化された評価尺度に依存しており、反応者の自然言語の豊かなニュアンスを組み込むことはできない。
本研究は,最近のLCMの進歩を活用して,新たな概念的枠組みの中で定性的なデータを活用することを目的として,LCM対応テキストと従来の評価尺度を組み合わせて,拡張テストを作成する。
本研究では, 抑うつを事例として, 上級中学生(n=693)とそれに対応する合成データセット(n=3,000)の実世界のサンプルを用いて, フレームワークの開発と評価を行った。
ホールドアウトテストセットでは、測定精度と精度が統計的に有意に向上した。
LLMの項目から得られる情報は6.3項目(実データ)と16.0項目(合成データ)を19項目のテストに加えることと等価である。
提案手法は,事前のラベル付きデータや複雑な専門家によるルーリックに頼る代わりに,項目情報の計算に基づいて,最も情報性の高いLCMスコアリング命令を経験的に選択する。
この枠組みは, 転写されたテキストのストリームの増大を利用して, 従来の心理測定尺度を強化するためのスケーラブルなアプローチを提供する。
関連論文リスト
- Leveraging LLMs to Evaluate Usefulness of Document [25.976948104719746]
本稿では,ユーザの検索コンテキストと行動データを大規模言語モデルに統合する,新たなユーザ中心評価フレームワークを提案する。
本研究は,文脈情報や行動情報に精通したLLMが有用性を正確に評価できることを実証する。
また,本手法で作成したラベルをユーザ満足度予測に適用し,実世界の実験により,これらのラベルが満足度予測モデルの性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-06-10T09:44:03Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - A Comparative Study of Quality Evaluation Methods for Text Summarization [0.5512295869673147]
本稿では,大規模言語モデル(LLM)に基づくテキスト要約評価手法を提案する。
以上の結果から,LLMの評価は人間の評価と密接に一致しているが,ROUGE-2,BERTScore,SummaCなどの広く使用されている自動測定値には一貫性がない。
論文 参考訳(メタデータ) (2024-06-30T16:12:37Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。