論文の概要: PaperTrail: A Claim-Evidence Interface for Grounding Provenance in LLM-based Scholarly Q&A
- arxiv url: http://arxiv.org/abs/2602.21045v1
- Date: Tue, 24 Feb 2026 16:04:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.829932
- Title: PaperTrail: A Claim-Evidence Interface for Grounding Provenance in LLM-based Scholarly Q&A
- Title(参考訳): PaperTrail: LLMベースのScholarly Q&Aにおけるグラウンド処理のためのクレームエビデンスインタフェース
- Authors: Anna Martin-Boyle, Cara A. C. Leckey, Martha C. Brown, Harmanpreet Kaur,
- Abstract要約: 大規模言語モデル(LLM)を個別のクレームとエビデンスに分解する新しいインターフェースであるPaperTrailを紹介する。
その結果,PaperTrailはベースラインインタフェースに比べて参加者の信頼度を著しく低下させた。
- 参考スコア(独自算出の注目度): 2.0532572974867174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used in scholarly question-answering (QA) systems to help researchers synthesize vast amounts of literature. However, these systems often produce subtle errors (e.g., unsupported claims, errors of omission), and current provenance mechanisms like source citations are not granular enough for the rigorous verification that scholarly domain requires. To address this, we introduce PaperTrail, a novel interface that decomposes both LLM answers and source documents into discrete claims and evidence, mapping them to reveal supported assertions, unsupported claims, and information omitted from the source texts. We evaluated PaperTrail in a within-subjects study with 26 researchers who performed two scholarly editing tasks using PaperTrail and a baseline interface. Our results show that PaperTrail significantly lowered participants' trust compared to the baseline. However, this increased caution did not translate to behavioral changes, as people continued to rely on LLM-generated scholarly edits to avoid a cognitively burdensome task. We discuss the value of claim-evidence matching for understanding LLM trustworthiness in scholarly settings, and present design implications for cognition-friendly communication of provenance information.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、研究者が膨大な量の文献を合成するのを助けるために、学術的な質問応答システム (QA) にますます使われている。
しかし、これらのシステムはしばしば微妙な誤り(例えば、クレームの禁止、省略の誤り)を生じさせ、情報源の引用のような現在の証明メカニズムは、学術領域が必要とする厳密な検証には不十分である。
そこで本研究では, LLM回答とソース文書を個別のクレームとエビデンスに分解し, サポート対象のクレーム, サポート対象のクレーム, ソーステキストから削除した情報を明らかにする新しいインターフェースPaperTrailを紹介する。
そこで本研究では,PaperTrailとベースラインインタフェースを用いた2つの学術的な編集作業を行った26人の研究者を対象に,PaperTrailを対象内実験で評価した。
その結果,PaperTrailはベースラインに比べて参加者の信頼を著しく低下させた。
しかし、この注意は、認知的に負担のかかる作業を避けるために、LLMが生成した学術的な編集に頼り続けたため、行動の変化に寄与しなかった。
本稿では,学術的環境におけるLCMの信頼性を理解するためのクレーム・エビデンスマッチングの価値について論じる。
関連論文リスト
- PaperAsk: A Benchmark for Reliability Evaluation of LLMs in Paper Search and Reading [24.52586571116556]
大規模言語モデル (LLMs) は研究助手としての役割を担っているが、学術的なタスクに対する信頼性は低い評価のままである。
本研究では,4つの主要な研究課題を対象としたLCMを体系的に評価するベンチマークであるPaperAskを紹介する。
引用検索は48~98%のマルチ参照クエリで失敗し、セクション固有のコンテンツ抽出は72~91%のケースで失敗し、トピックの論文発見ではF1スコアが0.32未満となり、関連する文献の60%以上が失われている。
論文 参考訳(メタデータ) (2025-10-25T10:11:29Z) - Can AI Validate Science? Benchmarking LLMs for Accurate Scientific Claim $\rightarrow$ Evidence Reasoning [6.043212666944194]
CLAIM-BENCHは,科学的クレームエビデンス抽出と検証において,大規模言語モデルの能力を評価するためのベンチマークである。
GPT-4やClaudeのようなクローズドソースモデルは、精度とリコールにおいて、オープンソースモデルよりも一貫して優れています。
戦略的に設計された3つのパスと1対1のプロンプトアプローチは、分散した証拠とクレームを正確にリンクするLSMの能力を大幅に向上させた。
論文 参考訳(メタデータ) (2025-06-09T21:04:39Z) - The Feasibility of Topic-Based Watermarking on Academic Peer Reviews [46.71493672772134]
大規模言語モデル(LLM)に対する話題ベース透かし(TBW)の評価を行った。
以上の結果から,TBWは非透かし出力と比較してレビュー品質を保ちつつ,パラフレージングに基づく回避を強く示している。
論文 参考訳(メタデータ) (2025-05-27T18:09:27Z) - How Deep Do Large Language Models Internalize Scientific Literature and Citation Practices? [1.130790932059036]
論文の引用において,大規模言語モデル (LLM) がマシュー効果の強化に寄与していることが示唆された。
我々はGPT-4oが生成した274,951個の参照を1万件の論文に対して分析した。
論文 参考訳(メタデータ) (2025-04-03T17:04:56Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers: NeurIPS'24 Experiment [59.09144776166979]
大規模言語モデル(LLM)は、科学的ピアレビューを支援する上で有望だが議論の余地のあるツールである。
本研究は,論文提出を提出基準に適合させるツールとして,会議環境におけるLCMの有用性を評価する。
論文 参考訳(メタデータ) (2024-11-05T18:58:00Z) - GenAudit: Fixing Factual Errors in Language Model Outputs with Evidence [64.95492752484171]
GenAudit - 文書基底タスクの事実チェック LLM 応答を支援するためのツール。
GenAuditは、レファレンス文書でサポートされていないクレームを修正したり削除したりすることでLCMレスポンスを編集することを提案し、また、サポートしているように見える事実の参照から証拠を提示する。
GenAuditは、さまざまなドメインから文書を要約する際に、8つの異なるLCM出力でエラーを検出することができる。
論文 参考訳(メタデータ) (2024-02-19T21:45:55Z) - A Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia [57.31074448586854]
大規模言語モデル(LLM)は、そのコンテキストで提供される新しい情報を引き出すという印象的な能力を持つ。
しかし、この文脈的基盤のメカニズムはいまだに不明である。
本稿では,Fakepedia を用いたグラウンドディング能力の研究手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T17:35:42Z) - When Large Language Models Meet Citation: A Survey [37.01594297337486]
大規模言語モデル(LLM)は、対応するテキストコンテキストを介して詳細な引用情報を取得するのに役立つ。
キュリオシティはまた、科学論文間のつながりを確立し、高品質な文書間関係を提供する。
本稿では, 引用分類, 引用に基づく要約, 引用レコメンデーションを含む, テキスト内引用分析タスクへのLLMの適用について概説する。
論文 参考訳(メタデータ) (2023-09-18T12:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。