論文の概要: Towards Synthesizing Normative Data for Cognitive Assessments Using Generative Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2508.17675v3
- Date: Sat, 06 Sep 2025 18:23:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 12:02:46.89028
- Title: Towards Synthesizing Normative Data for Cognitive Assessments Using Generative Multimodal Large Language Models
- Title(参考訳): 生成型多モーダル大言語モデルを用いた認知評価のための規範データの合成に向けて
- Authors: Victoria Yan, Honor Chotkowski, Fengran Wang, Xinhui Li, Carl Yang, Jiaying Lu, Runze Yan, Xiao Hu, Alex Fedorov,
- Abstract要約: 新しいイメージ刺激に基づく新しい認知テストの開発は、手軽に利用できる規範データがないために困難である。
近年のMLLM(Generative Multimodal Large Language Model)の進歩は、既存の認知テスト画像から合成規範データを生成する新しいアプローチを提供する。
- 参考スコア(独自算出の注目度): 15.287990843387382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cognitive assessments require normative data as essential benchmarks for evaluating individual performance. Hence, developing new cognitive tests based on novel image stimuli is challenging due to the lack of readily available normative data. Traditional data collection methods are costly, time-consuming, and infrequently updated, limiting their practical utility. Recent advancements in generative multimodal large language models (MLLMs) offer a new approach to generate synthetic normative data from existing cognitive test images. We investigated the feasibility of using MLLMs, specifically GPT-4o and GPT-4o-mini, to synthesize normative textual responses for established image-based cognitive assessments, such as the "Cookie Theft" picture description task. Two distinct prompting strategies-naive prompts with basic instructions and advanced prompts enriched with contextual guidance-were evaluated. Responses were analyzed using embeddings to assess their capacity to distinguish diagnostic groups and demographic variations. Performance metrics included BLEU, ROUGE, BERTScore, and an LLM-as-a-judge evaluation. Advanced prompting strategies produced synthetic responses that more effectively distinguished between diagnostic groups and captured demographic diversity compared to naive prompts. Superior models generated responses exhibiting higher realism and diversity. BERTScore emerged as the most reliable metric for contextual similarity assessment, while BLEU was less effective for evaluating creative outputs. The LLM-as-a-judge approach provided promising preliminary validation results. Our study demonstrates that generative multimodal LLMs, guided by refined prompting methods, can feasibly generate robust synthetic normative data for existing cognitive tests, thereby laying the groundwork for developing novel image-based cognitive assessments without the traditional limitations.
- Abstract(参考訳): 認知的評価は、個々のパフォーマンスを評価するのに必須のベンチマークとして規範的データを必要とする。
したがって、新しいイメージ刺激に基づく新しい認知テストの開発は、手軽に利用できる規範データがないために困難である。
従来のデータ収集手法は費用がかかり、時間がかかり、頻繁に更新されるため、実用性は制限される。
近年のMLLM(Generative Multimodal Large Language Model)の進歩は、既存の認知テスト画像から合成規範データを生成する新しいアプローチを提供する。
本研究では,MLLM,特にGPT-4oとGPT-4o-miniを用いて,Cookie Theft 画像記述タスクなどの画像ベース認知評価のための規範的テキスト応答を合成する可能性を検討した。
2つの異なるプロンプト的プロンプト-基本的な指示と高度なプロンプト-文脈的ガイダンスによって強化される。
診断群と人口動態の差異を識別するために, 埋め込みを用いて反応を解析した。
パフォーマンス指標としては、BLEU、ROUGE、BERTScore、LCM-as-a-judgeの評価がある。
先進的なプロンプト戦略は、より効果的に診断グループと捕獲された人口の多様性を区別する合成反応を生み出した。
上位モデルでは、より高いリアリズムと多様性を示す応答が生成される。
BERTScoreは文脈的類似性評価の最も信頼性の高い指標として登場したが、BLEUは創造的なアウトプットの評価にはあまり効果的ではなかった。
LLM-as-a-judgeアプローチは有望な事前検証結果を提供する。
本研究は, 改良プロンプト法により誘導された多モードLCMが, 既存の認知検査のための堅牢な合成規範データを生成可能であることを実証し, 従来の制約を伴わずに, 新たな画像ベース認知アセスメントを開発するための基盤となることを実証した。
関連論文リスト
- Quantifying Fairness in LLMs Beyond Tokens: A Semantic and Statistical Perspective [13.739343897204568]
大規模言語モデル(LLM)は、しばしば固有のバイアスを伴う応答を生成し、現実のアプリケーションにおける信頼性を損なう。
既存の評価手法は、LLM出力の長文応答におけるバイアスと本質的変動をしばしば見落としている。
人口集団間での長文応答の微妙な意味的差異を検知し,LLMにおけるグループレベルの公平性を評価するための新しい統計フレームワークであるFiScoを提案する。
論文 参考訳(メタデータ) (2025-06-23T18:31:22Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Multi-Agent LLM Judge: automatic personalized LLM judge design for evaluating natural language generation applications [0.0]
大規模言語モデル(LLM)は、さまざまなドメインにまたがって素晴らしいパフォーマンスを示しているが、ドメイン固有の知識の不足、バイアス、幻覚といった問題に直面している。
単語重複やテキスト埋め込みに依存する従来の評価手法は、動的でオープンなテキスト生成を評価するのに必要なニュアンスドセマンティック情報を取得するには不十分である。
本稿では,様々な自然言語生成アプリケーション向けにパーソナライズされたLLM判断器を自動設計する動的マルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2025-04-01T09:36:56Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。
BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。
本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文 参考訳(メタデータ) (2024-08-17T16:01:45Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。