論文の概要: On Finding Inconsistencies in Documents
- arxiv url: http://arxiv.org/abs/2512.18601v1
- Date: Sun, 21 Dec 2025 05:20:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.412529
- Title: On Finding Inconsistencies in Documents
- Title(参考訳): 文書の不整合の発見について
- Authors: Charles J. Lovering, Seth Ebner, Brandon Smock, Michael Krumdick, Saad Rabbani, Ahmed Muhammad, Varshini Reddy, Chris Tanner,
- Abstract要約: FIND(Finding INconsistency in Documents)というベンチマークを導入します。
文書は長く、技術的、複雑でありながら、最高の性能のモデル(gpt-5)は挿入された不整合の64%を回復した。
- 参考スコア(独自算出の注目度): 6.773356807601893
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Professionals in academia, law, and finance audit their documents because inconsistencies can result in monetary, reputational, and scientific costs. Language models (LMs) have the potential to dramatically speed up this auditing process. To understand their abilities, we introduce a benchmark, FIND (Finding INconsistencies in Documents), where each example is a document with an inconsistency inserted manually by a domain expert. Despite the documents being long, technical, and complex, the best-performing model (gpt-5) recovered 64% of the inserted inconsistencies. Surprisingly, gpt-5 also found undiscovered inconsistencies present in the original documents. For example, on 50 arXiv papers, we judged 136 out of 196 of the model's suggestions to be legitimate inconsistencies missed by the original authors. However, despite these findings, even the best models miss almost half of the inconsistencies in FIND, demonstrating that inconsistency detection is still a challenging task.
- Abstract(参考訳): 学術、法律、財政の専門家は、不整合が金銭的、評判、科学的なコストをもたらす可能性があるため、文書を監査する。
言語モデル(LM)はこの監査プロセスを劇的に高速化する可能性がある。
それらの能力を理解するために、FIND(Finding Inconsistency in Documents)というベンチマークを導入する。
文書は長く、技術的、複雑でありながら、最高の性能のモデル(gpt-5)は挿入された不整合の64%を回復した。
驚いたことに、gpt-5 は元の文書に未発見の不整合も発見している。
例えば、50のarXiv論文では、196のモデルの提案のうち136が、オリジナルの著者が見逃した正当な矛盾であると判断した。
しかし、これらの発見にもかかわらず、最高のモデルでさえFINDのほぼ半数の不整合を見逃し、不整合検出が依然として難しい課題であることを示した。
関連論文リスト
- DocPrism: Local Categorization and External Filtering to Identify Relevant Code-Documentation Inconsistencies [5.693844702145728]
本稿では,コード文書の不整合検出ツールDocPrismを紹介する。
DocPrismは、標準の大規模言語モデル(LLM)を使用して、矛盾を分析し、説明する。
Python、TypeScript、C++、Javaの幅広い評価において、DocPrismはフラグレート15%を低く保ち、微調整を行わずに0.62の精度を達成している。
論文 参考訳(メタデータ) (2025-10-31T19:22:54Z) - DocReward: A Document Reward Model for Structuring and Stylizing [107.03974018371058]
DocRewardはドキュメントの構造とスタイルに基づいてドキュメントを評価するドキュメント報酬モデルである。
ブラッドリー・テリーの損失を利用して文書を採点し、注釈付きランキングに矛盾する予測を罰する訓練を受けている。
GPT-5の37.7%の勝利率に比べて60.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2025-10-13T13:36:32Z) - ImpliRet: Benchmarking the Implicit Fact Retrieval Challenge [50.93758649363798]
Impliretは、推論の課題をドキュメント側処理にシフトするベンチマークである。
我々は,この環境下で苦戦している,疎水・密集したレトリバーの幅を評価した。
論文 参考訳(メタデータ) (2025-06-17T11:08:29Z) - Towards identifying and minimizing customer-facing documentation debt [5.318531077716712]
正確で完全で最新のドキュメントが不足すると、ドキュメントの欠陥が増加します。
ドキュメンテーションの欠陥に寄与するドキュメンテーションの欠陥タイプを特定し、ドキュメンテーションの負債を特定します。
実際には、ドキュメントの負債は、大量のリソースと焦点が高品質なソフトウェアを提供することに集中しているため、簡単に検出できなくなります。
論文 参考訳(メタデータ) (2024-02-16T19:51:04Z) - ContraDoc: Understanding Self-Contradictions in Documents with Large Language Models [7.428236410246183]
われわれはContraDocを紹介した。ContraDocは、複数のドメインにまたがる長いドキュメントにおける自己コントラクションを研究する最初の人間アノテーション付きデータセットである。
我々は,このデータセット上でGPT3.5, GPT4, PaLM2, LLaMAv2の4つの最先端オープンソースおよび商用LLMの現在の機能を分析する。
GPT4はこのタスクで最高のパフォーマンスを発揮し、人間より優れていますが、信頼できないことや、よりニュアンスとコンテキストを必要とする自己矛盾に苦労していることが分かりました。
論文 参考訳(メタデータ) (2023-11-15T18:23:17Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z) - Fast(er) Reconstruction of Shredded Text Documents via Self-Supervised
Deep Asymmetric Metric Learning [62.34197797857823]
細断文書の自動復元における中心的な問題は、細断文書の相互互換性評価である。
本研究は,推定回数を線形にスケールするペアワイド互換性を測るスケーラブルな深層学習手法を提案する。
提案手法は,505個のシュレッダーを持つテストインスタンスに対して,22倍の高速化を実現した最先端技術に匹敵する精度を有する。
論文 参考訳(メタデータ) (2020-03-23T03:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。