論文の概要: ACL-Verbatim: hallucination-free question answering for research
- arxiv url: http://arxiv.org/abs/2605.21102v1
- Date: Wed, 20 May 2026 12:30:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.668183
- Title: ACL-Verbatim: hallucination-free question answering for research
- Title(参考訳): ACL-Verbatim:幻覚のない質問応答の研究
- Authors: Gábor Recski, Szilveszter Tóth, Nadia Verdha, István Boros, Ádám Kovács,
- Abstract要約: 抽出質問応答システムVerbatimRAGをACLアンソロジーの研究論文に適用する。
研究論文において,ユーザクエリを関連テキストスパンにマッピングするタスクに対して,新たな基底真理データセットを提供する。
人間のアノテーションはNLP研究者によって実行され、カスタムパイプラインを使用して生成された合成ユーザクエリに基づいている。
- 参考スコア(独自算出の注目度): 1.1852769462463206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Academic researchers need efficient and reliable methods for collecting high-quality information from trusted sources, but modern tools for AI-assisted research still suffer from the tendency of Large Language Models (LLMs) to produce factually inaccurate or nonsensical output, commonly referred to as hallucinations. We apply the extractive question answering system VerbatimRAG to research papers in the ACL Anthology, directly mapping user queries to verbatim text spans in retrieved documents. We contribute a novel ground truth dataset for the task of mapping user queries to relevant text spans in research papers, and use it to train and evaluate a variety of extractive models. Human annotation is performed by NLP researchers and is based on synthetic user queries generated using a custom pipeline based on the ScIRGen methodology, paired with chunks of research papers retrieved by VerbatimRAG. On this benchmark, a 150M-parameter ModernBERT token classifier trained on silver supervision from our pipeline achieves the best word-level F1 (53.6), ahead of the strongest evaluated LLM extractor (48.7).
- Abstract(参考訳): 学術研究者は信頼できる情報源から高品質な情報を集めるための効率的で信頼性の高い方法を必要としているが、現代のAI支援研究のツールは、幻覚と呼ばれる、事実的に不正確な、あるいは非意味な出力を生成する大きな言語モデル(LLM)の傾向に悩まされている。
抽出質問応答システム VerbatimRAG をACLアンソロジーの論文に適用し,検索した文書のユーザクエリを動詞のテキストスパンに直接マッピングする。
研究論文において,ユーザクエリを関連テキストスパンにマッピングするタスクに対して,新たな基底真理データセットを提供し,さまざまな抽出モデルのトレーニングと評価に利用した。
人間のアノテーションはNLP研究者によって実行され、VerbatimRAGが取得した研究論文の断片と組み合わせて、ScrirGen方法論に基づいたカスタムパイプラインを使用して生成された合成ユーザクエリに基づいている。
このベンチマークでは、パイプラインから銀の監督に基づいて訓練された150MパラメーターのModernBERTトークン分類器が、最も評価の高いLCM抽出器(48.7)よりも高い単語レベルF1(53.6)を達成する。
関連論文リスト
- IntrAgent: An LLM Agent for Content-Grounded Information Retrieval through Literature Review [10.586701795115609]
IntrAgentは、情報検索のために文学を読むときの人間の行動を模倣するように設計されている。
関連するセクションを特定し、キーの詳細を反復的に抽出して、検索した情報を精査する。
IntrAgentは最先端のRAGや研究エージェントのベースラインよりも13.2%高いドメイン間精度を実現している。
論文 参考訳(メタデータ) (2026-04-23T01:55:08Z) - SAGE: Benchmarking and Improving Retrieval for Deep Research Agents [60.53966065867568]
SAGEは4つの科学領域にわたる1200のクエリからなる科学文献検索のためのベンチマークであり、20万の論文検索コーパスを備える。
6つのディープ・リサーチ・エージェントを評価し,全てのシステムが推論集約的な検索に苦しむことを発見した。
BM25は、既存のエージェントがキーワード指向のサブクエリを生成するため、LLMベースのレトリバーを約30%上回っている。
論文 参考訳(メタデータ) (2026-02-05T18:25:24Z) - How Do LLM-Generated Texts Impact Term-Based Retrieval Models? [76.92519309816008]
本稿では,大規模言語モデル(LLM)が項ベース検索モデルに与える影響について検討する。
言語学的解析により,LLM生成テキストはよりスムーズで低周波なZipf勾配を示すことが明らかとなった。
本研究は,項分布がクエリと密接に一致した文書を優先して,項ベース検索モデルがソースバイアスを示すかどうかを考察する。
論文 参考訳(メタデータ) (2025-08-25T06:43:27Z) - MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [48.73595915402094]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。
本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文 参考訳(メタデータ) (2025-05-26T10:31:26Z) - From Documents to Dialogue: Building KG-RAG Enhanced AI Assistants [28.149173430599525]
我々は、知識グラフ(KG)を利用した検索型拡張生成(RAG)フレームワークを使用して、外部知識ソースから関連情報を検索する。
我々のKG-RAGシステムは、応答を生成するLLMに送信される前に、ユーザのコンテキストに付加された関連する前兆を検索する。
評価の結果,本手法は応答関連性を大幅に向上させ,無関係な回答を50%以上削減し,既存の生産システムと比較して88%以上,完全関連性のある回答を増大させることがわかった。
論文 参考訳(メタデータ) (2025-02-21T06:22:12Z) - A Reproducibility and Generalizability Study of Large Language Models for Query Generation [14.172158182496295]
生成AIと大規模言語モデル(LLM)は、体系的な文献レビュープロセスに革命をもたらすことを約束する。
本稿では,LLMを用いたBooleanクエリ生成を体系的レビューのために広範囲に研究する。
本研究は,ChatGPTを用いて得られた結果の複製性と信頼性について検討した。
次に、オープンソースモデルの解析と評価により結果を一般化する。
論文 参考訳(メタデータ) (2024-11-22T13:15:03Z) - Cheap Ways of Extracting Clinical Markers from Texts [0.0]
本稿では,CLPsychの2024 Shared TaskにおけるUniBuc考古学チームの作業について述べる。
これには、割り当てられた自殺リスクレベルを支持するテキスト内の証拠の発見が含まれていた。
証拠にはハイライトと要約の2種類が必要だった。
論文 参考訳(メタデータ) (2024-03-17T14:21:42Z) - LitLLM: A Toolkit for Scientific Literature Review [15.785989492351684]
本稿では,RAG(Retrieval Augmented Generation)の原理に基づくツールキットを提案する。
本システムはまず,関連論文を検索するWeb検索を開始する。
第2に、ユーザが提供する抽象化に基づいて、検索した論文を再ランクする。
第3に、再ランクされた結果と要約に基づいて、関連する作業部を生成する。
論文 参考訳(メタデータ) (2024-02-02T02:41:28Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。