論文の概要: LongRecall: A Structured Approach for Robust Recall Evaluation in Long-Form Text
- arxiv url: http://arxiv.org/abs/2508.15085v1
- Date: Wed, 20 Aug 2025 21:41:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.102564
- Title: LongRecall: A Structured Approach for Robust Recall Evaluation in Long-Form Text
- Title(参考訳): LongRecall: 長期テキストにおけるロバストリコール評価のための構造化されたアプローチ
- Authors: MohamamdJavad Ardestani, Ehsan Kamalloo, Davood Rafiei,
- Abstract要約: LongRecallは3段階のリコール評価フレームワークである。
答えを自己完結した事実に分解し、語彙的および意味的なフィルタリングを通じて妥当な候補マッチングを狭め、アライメントを検証する。
我々は,LongRecallを人間のアノテーションとLLMに基づく判断の両方を用いて,3つの挑戦的な長文QAベンチマークで評価した。
- 参考スコア(独自算出の注目度): 14.211177885010029
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LongRecall. The completeness of machine-generated text, ensuring that it captures all relevant information, is crucial in domains such as medicine and law and in tasks like list-based question answering (QA), where omissions can have serious consequences. However, existing recall metrics often depend on lexical overlap, leading to errors with unsubstantiated entities and paraphrased answers, while LLM-as-a-Judge methods with long holistic prompts capture broader semantics but remain prone to misalignment and hallucinations without structured verification. We introduce LongRecall, a general three-stage recall evaluation framework that decomposes answers into self-contained facts, successively narrows plausible candidate matches through lexical and semantic filtering, and verifies their alignment through structured entailment checks. This design reduces false positives and false negatives while accommodating diverse phrasings and contextual variations, serving as a foundational building block for systematic recall assessment. We evaluate LongRecall on three challenging long-form QA benchmarks using both human annotations and LLM-based judges, demonstrating substantial improvements in recall accuracy over strong lexical and LLM-as-a-Judge baselines.
- Abstract(参考訳): ロングリコール。
機械生成テキストの完全性は、すべての関連情報を捕捉することを保証するものであり、医学や法律などの領域や、欠落が深刻な結果をもたらすリストベースの質問応答(QA)のようなタスクにおいて重要である。
しかし、既存のリコール指標は、しばしば語彙の重なりに頼り、未定の実体やパラフレーズの答えの誤りを引き起こすが、LLM-as-a-Judge法は長い全体的プロンプトで、より広い意味論を捉えるが、構造化された検証なしに、誤修正や幻覚に悩まされる傾向にある。
このフレームワークは,回答を自己完結した事実に分解し,語彙やセマンティックなフィルタリングによって妥当な候補マッチングを連続的に絞り込み,そのアライメントを構造化されたエンテーメントチェックによって検証する。
この設計は、様々な言い回しや文脈の変化を調節しながら、偽陽性と偽陰性を低減し、体系的なリコール評価の基盤となるビルディングブロックとして機能する。
我々は,LongRecallを人間のアノテーションとLLMベースの判定値を用いて,3つの挑戦的なQAベンチマークで評価し,強い語彙とLLM-as-a-Judgeベースラインに対するリコール精度を大幅に向上させた。
関連論文リスト
- CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Sense and Sensitivity: Examining the Influence of Semantic Recall on Long Context Code Reasoning [9.719614935865906]
本稿では,大規模リポジトリ内のコードスニペットに対するLLM(Large Language Models)推論能力について検討する。
我々は語彙的コードリコール (verbatim search) と意味的コードリコール (remembering the code does) を区別する。
我々は,コードスニペットが入力コンテキストの中央に近づくと,コード推論の精度が大幅に低下することを示した。
論文 参考訳(メタデータ) (2025-05-19T16:56:31Z) - MRAG: A Modular Retrieval Framework for Time-Sensitive Question Answering [3.117448929160824]
大規模言語モデル(LLM)を用いた質問応答システムにおいて,時間的関係と応答時間に敏感な質問
我々は、時間的摂動と金のエビデンスラベルを組み込むことで、既存のデータセットを再利用するTempRAGEvalベンチマークを導入する。
TempRAGEvalでは、MRAGが検索性能においてベースラインレトリバーを著しく上回り、最終回答精度がさらに向上した。
論文 参考訳(メタデータ) (2024-12-20T03:58:27Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Atomic Fact Decomposition Helps Attributed Question Answering [30.75332718824254]
Attributed Question Answering (AQA)は、質問に対する信頼できる回答と信頼できる属性レポートを提供することを目的としている。
本稿では,アトミックな事実分解に基づくRetrieval and Editingフレームワークを提案する。
生成した長文の回答を、命令調整されたLSMによって分子節と原子事実に分解する。
論文 参考訳(メタデータ) (2024-10-22T05:25:54Z) - FABLES: Evaluating faithfulness and content selection in book-length summarization [55.50680057160788]
本稿では,本書の忠実度と内容選択の大規模評価を行う。
LLMが生成した26冊のサマリーで作成した3,158冊の注釈のデータセットであるFABLESを5.2KUSDで収集する。
注釈の分析によると、ほとんどの不誠実な主張は出来事や登場人物の状態に関係しており、物語を無効にするために間接的推論を必要とする。
論文 参考訳(メタデータ) (2024-04-01T17:33:38Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。
RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。
手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-19T08:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。