論文の概要: Foundations of Global Consistency Checking with Noisy LLM Oracles
- arxiv url: http://arxiv.org/abs/2601.13600v1
- Date: Tue, 20 Jan 2026 05:02:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.160478
- Title: Foundations of Global Consistency Checking with Noisy LLM Oracles
- Title(参考訳): LLM Oracleによるグローバル一貫性チェックの基礎
- Authors: Paul He, Elke Kirschbaum, Shiva Kasiviswanathan,
- Abstract要約: グローバルな一貫性の検証には,最悪の場合,指数関数的に多くのオラクルクエリが必要です。
本稿では,最小整合部分集合を同定する適応的な分割・コンカレントアルゴリズムを提案する。
合成および実オーラクルを用いた実験により,本手法は不整合を効率よく検出し,局所化することを示した。
- 参考スコア(独自算出の注目度): 1.9954282121641704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring that collections of natural-language facts are globally consistent is essential for tasks such as fact-checking, summarization, and knowledge base construction. While Large Language Models (LLMs) can assess the consistency of small subsets of facts, their judgments are noisy, and pairwise checks are insufficient to guarantee global coherence. We formalize this problem and show that verifying global consistency requires exponentially many oracle queries in the worst case. To make the task practical, we propose an adaptive divide-and-conquer algorithm that identifies minimal inconsistent subsets (MUSes) of facts and optionally computes minimal repairs through hitting-sets. Our approach has low-degree polynomial query complexity. Experiments with both synthetic and real LLM oracles show that our method efficiently detects and localizes inconsistencies, offering a scalable framework for linguistic consistency verification with LLM-based evaluators.
- Abstract(参考訳): ファクトチェック、要約、知識ベース構築といったタスクには、自然言語事実の収集がグローバルに一貫性があることを保証することが不可欠である。
LLM(Large Language Models)は事実の小さな部分集合の一貫性を評価することができるが、その判断はうるさく、ペアチェックはグローバルコヒーレンスを保証するには不十分である。
この問題を形式化し,グローバルな一貫性を検証するためには,最悪の場合,指数関数的に多くのオラクルクエリが必要であることを示す。
そこで本研究では,最小の矛盾部分集合(MUS)を同定し,ヒットセットによる最小の修理を任意に計算する適応分割・解法を提案する。
我々のアプローチは低次多項式クエリの複雑さがある。
LLMオーラクルと実LLMオーラクルの両方を用いた実験により,本手法は効率よく不整合の検出と局所化を行い,LLMに基づく評価器を用いた言語整合性検証のためのスケーラブルなフレームワークを提供する。
関連論文リスト
- CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [64.70546873396624]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。
EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。
また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-10T02:39:55Z) - CheckEmbed: Effective Verification of LLM Solutions to Open-Ended Tasks [14.603394022550864]
CheckEmbed (CE)は、大規模言語モデル(LLM)の単純でスケーラブルで正確な検証方法である。
CEは、全問合せレベルで、高速でセマンティックにリッチな比較を行い、精度とスケーラビリティの両方において重要な制限を克服します。
実験の結果,CEは閉じたタスクとオープンエンドタスクの両方の幻覚を確実に検出することがわかった。
論文 参考訳(メタデータ) (2024-06-04T17:42:21Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。