論文の概要: Stage-Audit: Auditable Source-Frontier Discovery for Cross-Wiki Tables
- arxiv url: http://arxiv.org/abs/2605.20478v1
- Date: Tue, 19 May 2026 20:41:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.371836
- Title: Stage-Audit: Auditable Source-Frontier Discovery for Cross-Wiki Tables
- Title(参考訳): Stage-Audit: クロスウィキテーブルのための監査可能なソースFrontierディスカバリ
- Authors: Chen Shen,
- Abstract要約: LLM処理されたテーブルは、サポート対象の行を格納しながら、ソースグラウンドで表示することができる。
Stage-Auditは、非ジョイントなキュレーター/オーディタの書き込み権、行レベルのソース引用ゲート、キー、スキーマ、ソースロール、濃度、スコープに関する12チェック監査の分類に対処する。
- 参考スコア(独自算出の注目度): 1.6558929815405155
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LLM-curated tables can appear source-grounded while containing unsupported rows: the curator may recall entries from parametric memory and retroactively attach page-level citations that are not the actual source. We study this hazard in Seed2Frontier discovery: the task of finding complement Wikipedia pages from a seed page to assemble a structured table. Stage-Audit addresses it with disjoint curator-auditor write rights, a row-level source-citation gate, and a 12-check audit taxonomy over keys, schema, source roles, cardinality, and scope. On a curated 51-instance Seed2Frontier evaluation set spanning 15 top-level domains, Stage-Audit improves source-frontier precision over a vanilla LLM curator from 0.356 to 0.505 (+42% relative) and F1 from 0.334 to 0.451 (+35%), while maintaining explicit per-row source traceability. The vanilla-LLM-vs-Stage-Audit comparison isolates the policy contribution rather than LLM-based discovery in general.
- Abstract(参考訳): キュレーターはパラメトリックメモリからのエントリをリコールし、実際のソースではないページレベルの引用を遡ってアタッチすることができる。
本研究は,シードページからウィキペディアページを補完して構造化テーブルを組み立てる作業であるSeed2Frontier Discoveryにおいて,このハザードを研究したものである。
Stage-Auditは、非ジョイントなキュレーター/オーディタの書き込み権、行レベルのソース引用ゲート、キー、スキーマ、ソースロール、濃度、スコープに関する12チェック監査の分類に対処する。
51-instance Seed2Frontierによる15のトップレベルドメインを対象とした評価では、Stage-Auditは、バニラLSMキュレーターのソースフロンティア精度を0.356から0.505(+42%)、F1は0.334から0.451(+35%)に改善し、明示的なソーストレーサビリティを維持した。
バニラ-LLM-vs-Stage-Audit比較は、一般的にLLMに基づく発見よりも、政策貢献を分離する。
関連論文リスト
- Mining Subscenario Refactoring Opportunities in Behaviour-Driven Software Test Suites: ML Classifiers and LLM-Judge Baselines [1.9537983097153042]
振る舞い駆動開発(BDD)ソフトウェアテストスイートは、重複したステップサブシーケンスを蓄積します。
3つのパブリッシュパターンが利用可能である(ファイルの背景、再利用可能な再利用可能なシナリオ呼び出し、組織間の共有高レベルステップ)。
繰り返し続くサブシーケンスが抽出に値するか、どのメカニズムが適用されるかを自動化する前の作業はありません。
論文 参考訳(メタデータ) (2026-05-14T08:38:04Z) - How Far Is Document Parsing from Solved? PureDocBench: A Source-TraceableBenchmark across Clean, Degraded, and Real-World Settings [56.70440596502351]
昨年は20以上のオープンドキュメントパースモデルが見られたが、ベンチマークはほぼOmniDocBenchにのみ依存している。
HTML/CSSのドキュメントイメージをレンダリングするベンチマークであるPureDocBenchは、10のドメイン、66ページ、1,475ページをカバーしています。
論文 参考訳(メタデータ) (2026-05-08T09:30:31Z) - The Surprising Universality of LLM Outputs: A Real-Time Verification Primitive [0.0]
CPUのみのスコアリングプリミティブはトークン当たり2.6マイクロ秒で動作する。
トークンのランク周波数分布は同じ2パラメータのMandelbrotランキング分布に収束する。
利用可能な場合にモデルログの確率で構成し、クローズドAPIで使用可能なランクオンリーモードに分解するシングルパススコアリングプリミティブを導出する。
論文 参考訳(メタデータ) (2026-04-28T13:35:31Z) - Self-Describing Structured Data with Dual-Layer Guidance: A Lightweight Alternative to RAG for Precision Retrieval in Large-Scale LLM Knowledge Navigation [0.0]
大きな言語モデル(LLM)は、長い入力コンテキストを処理する際に、よく文書化された位置バイアスを示す。
これにより、コンテキストに直接大きな構造化知識ベースを組み込む知識検索アプリケーションが制限される。
本稿では,構造化されたデータファイルがファイルのプライマリ位置にある人為的なナビゲーションメタデータを埋め込む軽量なフレームワークである自己記述型構造化検索(SDSR)を提案する。
論文 参考訳(メタデータ) (2026-03-28T14:12:43Z) - OpenSanctions Pairs: Large-Scale Entity Matching with LLMs [0.9131359219276399]
我々は,実世界の国際制裁アグリゲーションとアナリストの重複から派生した,大規模エンティティマッチングベンチマークOpenSanctions Pairsをリリースした。
データセットには、31か国で293の異種源にまたがる755,540のラベル付きペアが含まれている。
オフザシェルフ LLM は生産ルールベースのベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-02-24T06:25:49Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Evaluating the Use of LLMs for Documentation to Code Traceability [3.076436880934678]
大規模言語モデルは、様々なソフトウェアドキュメンテーションとソースコードの間のトレースリンクを確立することができる。
私たちは2つのオープンソースプロジェクト(Unity CatalogとCrawl4AI)から2つの新しいデータセットを作成します。
その結果、最高の性能のLLMは2つのデータセットで79.4%と80.4%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-06-19T16:18:53Z) - Document Attribution: Examining Citation Relationships using Large Language Models [62.46146670035751]
そこで本研究では,帰属を簡単なテキスト・エンタテインメント・タスクとみなすゼロショット・アプローチを提案する。
また,アトリビューションプロセスの強化におけるアテンションメカニズムの役割についても検討する。
論文 参考訳(メタデータ) (2025-05-09T04:40:11Z) - FABLES: Evaluating faithfulness and content selection in book-length summarization [55.50680057160788]
本稿では,本書の忠実度と内容選択の大規模評価を行う。
LLMが生成した26冊のサマリーで作成した3,158冊の注釈のデータセットであるFABLESを5.2KUSDで収集する。
注釈の分析によると、ほとんどの不誠実な主張は出来事や登場人物の状態に関係しており、物語を無効にするために間接的推論を必要とする。
論文 参考訳(メタデータ) (2024-04-01T17:33:38Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。