論文の概要: AuthTrace: Diagnosing Evidence Construction in Thematically Dense Single-Author Corpora
- arxiv url: http://arxiv.org/abs/2605.25382v1
- Date: Mon, 25 May 2026 03:10:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.26682
- Title: AuthTrace: Diagnosing Evidence Construction in Thematically Dense Single-Author Corpora
- Title(参考訳): AuthTrace: セマンティックなシングルオーセンタコーパスにおけるエビデンス構築の診断
- Authors: Xiaoqing Wu, Feifei Li, Haoliang Ming, Wenhui Que,
- Abstract要約: AuthTraceは、すべての主要なパラダイムを単一のコーパスとクエリセットに配置する最初の診断ベンチマークである。
すべてのテキストがスタイル、トピック、語彙を共有する、テーマ的に密集したコーパス上に構築されたAuthTraceは、2,099のインスタンスに徹底的な金の証拠を提供する。
- 参考スコア(独自算出の注目度): 6.956097396264084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evidence construction systems--chunk retrieval, agent memory, knowledge-graph traversal, and thematic indexing--are evaluated on separate benchmarks with incompatible corpora and metrics, making cross-paradigm diagnosis impossible. We introduce AuthTrace, the first diagnostic benchmark that places all major paradigms on a single corpus and query set by exploiting the dual nature of single-author collections. Built on thematically dense corpora where all texts share style, topic, and vocabulary, AuthTrace provides 2,099 instances with exhaustive gold evidence and a fan-in gradient as the primary diagnostic axis. Comparing eight systems across two QA models, we find that (1) evidence recall--not precision--is the dominant predictor of answer quality (r = 0.96); (2) fan-in exposes paradigm-specific collapse patterns, with flat retrieval degrading 3x faster than structured-evidence systems; and (3) full-context prompting fails uniformly, establishing evidence construction as a necessary capacity beyond raw corpus exposure.
- Abstract(参考訳): チャンク検索,エージェントメモリ,ナレッジグラフトラバーサル,セマンティックインデクシングといったエビデンス構築システムは,不整合コーパスとメトリクスを用いたベンチマークで評価され,パラダイム横断診断が不可能となる。
AuthTraceは1つのコーパスとクエリセットにすべての主要なパラダイムを配置する最初の診断ベンチマークである。
AuthTraceは、すべてのテキストがスタイル、トピック、語彙を共有する、テーマ的に密集したコーパスに基づいて構築され、2,099のインスタンスに、徹底的な金の証拠と、主要な診断軸としてのファンイン勾配を提供する。
2つのQAモデルの8つのシステムを比較すると、(1)証拠のリコール--正確でない--が応答品質の優位な予測因子(r = 0.96)であること、(2)ファンインは、フラットな検索が構造化された証拠システムよりも3倍早く劣化するパラダイム固有の崩壊パターンを露呈すること、(3)完全文脈のプロンプトが一様に失敗すること、そして、証拠構築が生のコーパス露出を超えるキャパシティとして必要であることを示すこと、が分かる。
関連論文リスト
- AI-Supervisor: Autonomous AI Research Supervision via a Persistent Research World Model [1.14219428942199]
既存の自動研究システムは、ステートレスでリニアなパイプラインとして動作する。
マルチエージェントオーケストレーションフレームワークである textbfAI-Supervisor を提案する。
エージェントは、人間の関心によって駆動されるエンドツーエンドのAI研究の監督を提供する。
論文 参考訳(メタデータ) (2026-03-25T15:16:51Z) - Logics-Parsing-Omni Technical Report [18.897248420641386]
本稿では,断片化タスク定義の課題とマルチモーダル解析における非構造化データの均一性に対処するOmni Parsingフレームワークを提案する。
このフレームワークの重要な利点は、そのエビデンスアンカー機構であり、ハイレベルなセマンティック記述と低レベルな事実の厳密な一致を強制する。
これにより、エビデンスに基づく'論理的帰納化が可能となり、構造化されていない信号を、位置可能で、エナメル性があり、トレース可能な標準化された知識に変換する。
論文 参考訳(メタデータ) (2026-03-10T13:46:32Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - Localizing Factual Inconsistencies in Attributable Text Generation [74.11403803488643]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
QASemConsistencyは、人間の判断とよく相関する事実整合性スコアを得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection [55.70982767084996]
ディープフェイク検出の分野で見落とされがちな課題は、標準化され、統一され、包括的なベンチマークがないことである。
DeepfakeBenchと呼ばれる,3つの重要なコントリビューションを提供するディープフェイク検出のための,最初の包括的なベンチマークを提示する。
DeepfakeBenchには15の最先端検出方法、9CLデータセット、一連のDeepfake検出評価プロトコルと分析ツール、包括的な評価ツールが含まれている。
論文 参考訳(メタデータ) (2023-07-04T01:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。