論文の概要: An Expert Schema for Evaluating Large Language Model Errors in Scholarly Question-Answering Systems
- arxiv url: http://arxiv.org/abs/2602.21059v1
- Date: Tue, 24 Feb 2026 16:16:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.836419
- Title: An Expert Schema for Evaluating Large Language Model Errors in Scholarly Question-Answering Systems
- Title(参考訳): 学習質問応答システムにおける大規模言語モデル誤り評価のためのエキスパートスキーマ
- Authors: Anna Martin-Boyle, William Humphreys, Martha Brown, Cara Leckey, Harmanpreet Kaur,
- Abstract要約: 大規模言語モデル(LLM)は、探索や要約といった学術的なタスクを変換しているが、その信頼性は未だに不明である。
質問応答システムにおけるLCMの誤りを評価するためのスキーマを開発し,実験者の評価戦略を反映した。
- 参考スコア(独自算出の注目度): 1.9138416746729587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are transforming scholarly tasks like search and summarization, but their reliability remains uncertain. Current evaluation metrics for testing LLM reliability are primarily automated approaches that prioritize efficiency and scalability, but lack contextual nuance and fail to reflect how scientific domain experts assess LLM outputs in practice. We developed and validated a schema for evaluating LLM errors in scholarly question-answering systems that reflects the assessment strategies of practicing scientists. In collaboration with domain experts, we identified 20 error patterns across seven categories through thematic analysis of 68 question-answer pairs. We validated this schema through contextual inquiries with 10 additional scientists, which showed not only which errors experts naturally identify but also how structured evaluation schemas can help them detect previously overlooked issues. Domain experts use systematic assessment strategies, including technical precision testing, value-based evaluation, and meta-evaluation of their own practices. We discuss implications for supporting expert evaluation of LLM outputs, including opportunities for personalized, schema-driven tools that adapt to individual evaluation patterns and expertise levels.
- Abstract(参考訳): 大規模言語モデル(LLM)は、探索や要約といった学術的なタスクを変換しているが、その信頼性は未だに不明である。
LLMの信頼性をテストするための現在の評価基準は、主に効率とスケーラビリティを優先する自動化アプローチであるが、文脈的なニュアンスがなく、科学的領域の専門家が実際にLLMのアウトプットを評価する方法を反映していない。
我々は,学術的な質問応答システムにおけるLCMの誤りを評価するためのスキーマを開発し,その妥当性を検証した。
専門分野の専門家と共同で,68の問合せ対のテーマ分析により,7つのカテゴリにまたがる誤りパターンを20個同定した。
これは、専門家が自然に特定するエラーだけでなく、構造化された評価スキーマが、これまで見過ごされていた問題を検出するのにどのように役立つかを示したものだ。
ドメインエキスパートは、技術的精度テスト、価値に基づく評価、そして自身のプラクティスのメタ評価を含む、体系的な評価戦略を使用する。
個人評価パターンや専門知識レベルに適応するパーソナライズされたスキーマ駆動型ツールの機会を含む,LCM出力のエキスパート評価を支援することの意味について論じる。
関連論文リスト
- Expert Evaluation of LLM World Models: A High-$T_c$ Superconductivity Case Study [8.574376236521958]
大規模言語モデル(LLM)は科学的文献探索の強力なツールとして大きな可能性を秘めている。
専門家のレベルでのLLMシステムによる文献の理解能力を評価する。
我々は,分野の歴史を網羅する1,726の科学論文と67の専門家による質問のデータベースを構築した。
論文 参考訳(メタデータ) (2025-11-05T19:00:01Z) - JudgeAgent: Knowledge-wise and Dynamic LLM Evaluation with Agent-as-Interviewer [19.09571232466437]
大規模言語モデル(LLM)のための動的評価パラダイムであるエージェント・アズ・インタービューアを提案する。
現在のベンチマークや動的相互作用のパラダイムとは異なり、エージェント・アズ・インタービューアはエージェントを使用して動的マルチターン質問生成においてより広く深い知識を得るために知識ツールを呼び出します。
我々は、知識駆動型合成をエージェントのツールとして活用し、戦略指導として難易度スコアリングを利用する知識ワイドな動的評価フレームワークであるJiceAgentを開発する。
論文 参考訳(メタデータ) (2025-09-02T08:52:16Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Multi-Agent LLM Judge: automatic personalized LLM judge design for evaluating natural language generation applications [0.0]
大規模言語モデル(LLM)は、さまざまなドメインにまたがって素晴らしいパフォーマンスを示しているが、ドメイン固有の知識の不足、バイアス、幻覚といった問題に直面している。
単語重複やテキスト埋め込みに依存する従来の評価手法は、動的でオープンなテキスト生成を評価するのに必要なニュアンスドセマンティック情報を取得するには不十分である。
本稿では,様々な自然言語生成アプリケーション向けにパーソナライズされたLLM判断器を自動設計する動的マルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2025-04-01T09:36:56Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。
BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。
本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文 参考訳(メタデータ) (2024-08-17T16:01:45Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。