論文の概要: AuthTrace: Diagnosing Evidence Construction in Thematically Dense Single-Author Corpora
- arxiv url: http://arxiv.org/abs/2605.25382v2
- Date: Tue, 26 May 2026 10:32:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.09688
- Title: AuthTrace: Diagnosing Evidence Construction in Thematically Dense Single-Author Corpora
- Title(参考訳): AuthTrace: セマンティックなシングルオーセンタコーパスにおけるエビデンス構築の診断
- Authors: Xiaoqing Wu, Feifei Li, Haoliang Ming, Wenhui Que,
- Abstract要約: AuthTraceは,主題的に密集した単一著者コーパスに基づいて構築された診断ベンチマークである。
AuthTraceは明示的な引用されたエビデンス、正確なファンインアノテーション、エビデンスリコール、エビデンス精度、答えの正当性を測定する統一パックレベルのプロトコルを提供する。
- 参考スコア(独自算出の注目度): 6.956097396264084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evidence construction--the stage that determines which passages reach the language model before generation begins--is evaluated paradigm by paradigm, leaving practitioners with no principled way to diagnose which organization strategy fails, where, or why. We introduce AuthTrace, a diagnostic benchmark built on thematically dense single-author corpora where near-miss distractors share style, topic, and vocabulary with the required evidence. AuthTrace provides explicit quoted evidence, exact fan-in annotation, and a unified pack-level protocol measuring evidence recall, evidence precision, and answer correctness. A fan-in gradient--the number of source documents required to support the answer--serves as the primary diagnostic axis, enabling controlled comparison across retrieval, memory, graph, and structured-evidence paradigms. Evaluating eight systems across two QA models, we find that evidence recall is the strongest observed predictor of answer correctness under the primary reader-judge pair (r = 0.96); most failures stem from missing evidence rather than answer synthesis. Fan-in further exposes paradigm-specific collapse patterns: flat retrieval degrades 2-3x faster than thematically organized evidence construction. These results show fan-in decomposition to be a reusable diagnostic lens for identifying where evidence-construction systems fail and which paradigm best serves a given workload.
- Abstract(参考訳): エビデンス・コンストラクション(エビデンス・コンストラクション) - 生成が始まる前にどのパスが言語モデルに達するかを決定するステージは、パラダイムによって評価される。
AuthTraceは、密集したシングルオーサコーパスに基づいて構築された診断ベンチマークで、必要となるエビデンスと、そのスタイル、トピック、語彙を共有する。
AuthTraceは明示的な引用されたエビデンス、正確なファンインアノテーション、エビデンスリコール、エビデンス精度、答えの正当性を測定する統一パックレベルのプロトコルを提供する。
ファンイン勾配(ファンイン勾配) - 主診断軸として回答をサポートするのに必要な情報源文書の数 - 検索、メモリ、グラフ、構造化エビデンスパラダイム間の制御された比較を可能にする。
2つのQAモデルにまたがる8つのシステムを評価すると、エビデンスリコールはプライマリ・ジャッジ・ペア (r = 0.96) の解答正解率の最も強い予測因子であることがわかった。
フラット検索は、数学的に組織されたエビデンス構築よりも2~3倍早く劣化する。
これらの結果から,ファンイン分解はエビデンス・コンストラクションシステムが故障した場所と,どのパラダイムが与えられた作業負荷に最適かを特定するための再利用可能な診断レンズであることが示された。
関連論文リスト
- AI-Supervisor: Autonomous AI Research Supervision via a Persistent Research World Model [1.14219428942199]
既存の自動研究システムは、ステートレスでリニアなパイプラインとして動作する。
マルチエージェントオーケストレーションフレームワークである textbfAI-Supervisor を提案する。
エージェントは、人間の関心によって駆動されるエンドツーエンドのAI研究の監督を提供する。
論文 参考訳(メタデータ) (2026-03-25T15:16:51Z) - Logics-Parsing-Omni Technical Report [18.897248420641386]
本稿では,断片化タスク定義の課題とマルチモーダル解析における非構造化データの均一性に対処するOmni Parsingフレームワークを提案する。
このフレームワークの重要な利点は、そのエビデンスアンカー機構であり、ハイレベルなセマンティック記述と低レベルな事実の厳密な一致を強制する。
これにより、エビデンスに基づく'論理的帰納化が可能となり、構造化されていない信号を、位置可能で、エナメル性があり、トレース可能な標準化された知識に変換する。
論文 参考訳(メタデータ) (2026-03-10T13:46:32Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - Localizing Factual Inconsistencies in Attributable Text Generation [74.11403803488643]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
QASemConsistencyは、人間の判断とよく相関する事実整合性スコアを得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection [55.70982767084996]
ディープフェイク検出の分野で見落とされがちな課題は、標準化され、統一され、包括的なベンチマークがないことである。
DeepfakeBenchと呼ばれる,3つの重要なコントリビューションを提供するディープフェイク検出のための,最初の包括的なベンチマークを提示する。
DeepfakeBenchには15の最先端検出方法、9CLデータセット、一連のDeepfake検出評価プロトコルと分析ツール、包括的な評価ツールが含まれている。
論文 参考訳(メタデータ) (2023-07-04T01:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。