論文の概要: Qworld: Question-Specific Evaluation Criteria for LLMs
- arxiv url: http://arxiv.org/abs/2603.23522v1
- Date: Fri, 06 Mar 2026 15:20:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.009579
- Title: Qworld: Question-Specific Evaluation Criteria for LLMs
- Title(参考訳): Qworld: LLMの質問特化評価基準
- Authors: Shanghua Gao, Yuchang Su, Pengwei Sui, Curtis Ginder, Marinka Zitnik,
- Abstract要約: 本稿では,質問特化評価基準を生成する手法であるOne-Question-One-World(Qworld)を紹介する。
HealthBenchでは、Qworldは専門家が認定した基準の89%をカバーし、人間の専門家によって検証された新しい基準の79%を生成する。
- 参考スコア(独自算出の注目度): 26.920579114168365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating large language models (LLMs) on open-ended questions is difficult because response quality depends on the question's context. Binary scores and static rubrics fail to capture these context-dependent requirements. Existing methods define criteria at the dataset level or generate them in a single pass, which limits their ability to explore the evaluation space implied by each question. We introduce One-Question-One-World (Qworld), a method that generates question-specific evaluation criteria using a recursive expansion tree. Given a question, Qworld decomposes it into scenarios, perspectives, and fine-grained binary criteria through structured hierarchical and horizontal expansion. The resulting criteria specify what a high-quality answer must address for that question. On HealthBench, Qworld covers 89% of expert-authored criteria and generates 79% novel criteria validated by human experts. Experts rate Qworld criteria higher in insight and granularity than those produced by prior methods. When applied to 11 frontier LLMs on HealthBench and Humanity's Last Exam, Qworld reveals capability differences in dimensions such as long-term impact, equity, error handling, and interdisciplinary reasoning that coarse rubrics do not distinguish. By formulating criteria generation as structured coverage of question-implied evaluation axes, Qworld enables evaluation that adapts to each question rather than relying on fixed task-level criteria.
- Abstract(参考訳): 大規模言語モデル(LLM)をオープンエンドの質問に対して評価することは、応答品質が質問のコンテキストに依存するため困難である。
バイナリスコアと静的ルーリックは、これらのコンテキスト依存の要件をキャプチャできない。
既存の手法では、データセットのレベルで基準を定義したり、単一のパスでそれを生成することで、各質問によって暗示される評価空間を探索する能力を制限する。
本稿では,再帰的拡張木を用いて質問特化評価基準を生成する手法であるOne-Question-One-World(Qworld)を紹介する。
ある質問に対して、Qworldはそれを、階層的および水平的な拡張によって、シナリオ、視点、きめ細かい二項基準に分解する。
結果の基準は、その質問に対して高品質な回答がどう対処すべきかを規定する。
HealthBenchでは、Qworldは専門家が認定した基準の89%をカバーし、人間の専門家によって検証された新しい基準の79%を生成する。
専門家は、Qworldの基準は従来の方法よりも洞察と粒度が高いと評価している。
HealthBenchとHumanity's Last Examの11のフロンティアLEMに適用すると、Qworldは、粗いルーブリックが区別しないような長期的な影響、株式、エラーハンドリング、学際的推論といった次元の能力の違いを明らかにする。
質問実行評価軸の構造的カバレッジとして基準生成を定式化することにより、Qworldは、一定のタスクレベル基準に頼るのではなく、各質問に適応する評価を可能にする。
関連論文リスト
- EvalAgent: Discovering Implicit Evaluation Criteria from the Web [82.82096383262068]
EvalAgentは、ニュアンスとタスク固有の基準を自動的に発見するように設計されたフレームワークである。
EvalAgentは、さまざまな長期評価基準を提案するために、専門家が作成したオンラインガイダンスをマイニングしている。
我々の実験では、EvalAgentが生み出す基準は暗黙的だが具体的であることが示されている。
論文 参考訳(メタデータ) (2025-04-21T16:43:50Z) - QUDSELECT: Selective Decoding for Questions Under Discussion Parsing [90.92351108691014]
Question Under Examination (QUD) は、暗黙の質問を用いて文間の会話関係を明らかにするための談話フレームワークである。
本稿では,QUD基準を考慮したQUD依存構造を選択的に復号する共同学習フレームワークであるQUDSELECTを紹介する。
提案手法は,人的評価において9%,自動評価において4%,最先端のベースラインモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-08-02T06:46:08Z) - QGEval: Benchmarking Multi-dimensional Evaluation for Question Generation [9.001613702628253]
人間の評価は質問生成(QG)の分野で広く使われており、自動メトリクスのゴールドスタンダードとして機能している。
統一された評価基準が欠如しており、QGモデルと自動メトリクスの両方の一貫性のある評価を妨げている。
質問生成のための多次元評価ベンチマークであるQGEvalを提案する。
論文 参考訳(メタデータ) (2024-06-09T09:51:55Z) - HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z) - Diversity Enhanced Narrative Question Generation for Storybooks [4.043005183192124]
マルチクエスト生成モデル(mQG)を導入し,複数の,多様な,回答可能な質問を生成する。
生成した質問の応答性を検証するために,SQuAD2.0の微調整された質問応答モデルを用いる。
mQGは、強力なベースラインの中で、様々な評価指標で有望な結果を示している。
論文 参考訳(メタデータ) (2023-10-25T08:10:04Z) - QUDEVAL: The Evaluation of Questions Under Discussion Discourse Parsing [87.20804165014387]
Questions Under discussions (QUD) は、言論を継続的に質問し、答えるように進行する多目的言語フレームワークである。
本研究はQUD解析の自動評価のための最初のフレームワークを紹介する。
細調整されたシステムとLLMの両方から生成された2,190のQUD質問のきめ細かい評価データセットであるQUDevalを提案する。
論文 参考訳(メタデータ) (2023-10-23T03:03:58Z) - Mastering the ABCDs of Complex Questions: Answer-Based Claim
Decomposition for Fine-grained Self-Evaluation [9.776667356119352]
本稿では,質問を真偽のクレームに分解する手法であるABCDを提案する。
ABCDクレームを分解し, きめ細かい自己評価を行う。
GPT-3.5は、その答えがどの程度入力された質問の基準を満たすかを決定する能力を持っていることがわかった。
論文 参考訳(メタデータ) (2023-05-24T05:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。