論文の概要: SCORE: Specificity, Context Utilization, Robustness, and Relevance for Reference-Free LLM Evaluation
- arxiv url: http://arxiv.org/abs/2602.10017v1
- Date: Tue, 10 Feb 2026 17:39:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.716301
- Title: SCORE: Specificity, Context Utilization, Robustness, and Relevance for Reference-Free LLM Evaluation
- Title(参考訳): SCORE: 基準自由LLM評価における特異性、文脈利用、ロバスト性、および関連性
- Authors: Homaira Huda Shomee, Rochana Chaturvedi, Yangxinyu Xie, Tanwi Mallick,
- Abstract要約: 大規模言語モデル (LLMs) は、ハイテイクなドメイン固有の設定において、質問応答と意思決定をサポートするために、ますます使われている。
本研究では,LLM出力を4つの相補次元に沿って評価する多次元参照フリー評価フレームワークを提案する。
我々は、40の専門職と7つの自然危険タイプにまたがる1,412のドメイン固有の質問応答ペアをキュレートしたデータセットを紹介した。
- 参考スコア(独自算出の注目度): 6.760582976667912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used to support question answering and decision-making in high-stakes, domain-specific settings such as natural hazard response and infrastructure planning, where effective answers must convey fine-grained, decision-critical details. However, existing evaluation frameworks for retrieval-augmented generation (RAG) and open-ended question answering primarily rely on surface-level similarity, factual consistency, or semantic relevance, and often fail to assess whether responses provide the specific information required for domain-sensitive decisions. To address this gap, we propose a multi-dimensional, reference-free evaluation framework that assesses LLM outputs along four complementary dimensions: specificity, robustness to paraphrasing and semantic perturbations, answer relevance, and context utilization. We introduce a curated dataset of 1,412 domain-specific question-answer pairs spanning 40 professional roles and seven natural hazard types to support systematic evaluation. We further conduct human evaluation to assess inter-annotator agreement and alignment between model outputs and human judgments, which highlights the inherent subjectivity of open-ended, domain-specific evaluation. Our results show that no single metric sufficiently captures answer quality in isolation and demonstrate the need for structured, multi-metric evaluation frameworks when deploying LLMs in high-stakes applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然災害対応やインフラ計画のようなドメイン固有の設定において、質問応答と意思決定をサポートするためにますます使われており、効果的な答えはきめ細かな決定クリティカルな詳細を伝達しなければならない。
しかしながら、検索強化世代(RAG)とオープンエンド質問応答の既存の評価フレームワークは、主に表面レベルの類似性、事実整合性、意味的関連性に依存しており、応答がドメイン依存的な決定に必要な特定の情報を提供するかどうかを判断するのに失敗することが多い。
このギャップに対処するために,LLM出力を4つの相補的次元に沿って評価する多次元参照フリー評価フレームワークを提案する。
そこで本研究では,40の専門職と7つの自然危険タイプにまたがる1,412のドメイン固有の質問応答ペアのキュレートデータセットを導入し,システマティックな評価を支援する。
さらに、アノテータ間の合意と、モデル出力と人的判断の整合性を評価するために人的評価を行い、オープンエンドなドメイン固有の評価の固有の主観性を強調する。
以上の結果から,LLMを高精細なアプリケーションにデプロイする際には,単独で解答品質を十分に把握し,構造化されたマルチメトリック評価フレームワークの必要性が示された。
関連論文リスト
- Automated Benchmark Generation from Domain Guidelines Informed by Bloom's Taxonomy [28.293009223912602]
オープンエンド質問応答(英語: Open-ended Question answering, QA)は、モデルが事実的リコールを超えた文脈的推論を行う能力を評価する。
この課題は、知識が手続き的であり、専門的な判断が下されている、実践ベースの領域で特に深刻である。
ブルームの分類学から得られた専門家認可ガイドラインから自動ベンチマーク生成のためのフレームワークを紹介する。
論文 参考訳(メタデータ) (2026-01-28T05:01:11Z) - Towards Human-Like Grading: A Unified LLM-Enhanced Framework for Subjective Question Evaluation [11.709100855086291]
本稿では,全ての主観的質問に対して人間ライクな評価を提供する,LLM(Large Language Model)拡張自動階調フレームワークを提案する。
本フレームワークは,4つの相補的なモジュールを統合し,学生の回答を総合的に評価する。
論文 参考訳(メタデータ) (2025-10-09T08:05:39Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。
本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。
キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。
このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文 参考訳(メタデータ) (2025-07-28T23:50:09Z) - Disambiguation in Conversational Question Answering in the Era of LLMs and Agents: A Survey [54.90240495777929]
自然言語処理(NLP)におけるあいまいさは依然として根本的な課題である
LLM(Large Language Models)の出現により、あいまいさに対処することがさらに重要になった。
本稿では,言語駆動システムにおけるあいまいさの定義,形態,含意について考察する。
論文 参考訳(メタデータ) (2025-05-18T20:53:41Z) - A Task-Centric Perspective on Recommendation Systems [32.44458308850838]
我々はRecSysタスクの定式化を解析し、入力出力構造、時間力学、候補項目選択といった重要なコンポーネントを強調した。
本稿では,タスク特異性とモデル一般化可能性のバランスについて考察し,タスク定式化がロバストな評価と効率的なソリューション開発の基礎となることを明らかにする。
論文 参考訳(メタデータ) (2025-03-27T06:10:22Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - Evaluating the Efficacy of Foundational Models: Advancing Benchmarking Practices to Enhance Fine-Tuning Decision-Making [1.3812010983144802]
本研究は,サイバーセキュリティ,医療,金融など多種多様な分野にわたる言語モデル(LLM)を評価する。
その結果,モデルサイズと推論に用いるプロンプトの種類は応答長と品質に大きく影響した。
論文 参考訳(メタデータ) (2024-06-25T20:52:31Z) - HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。