論文の概要: Cross-Examination Framework: A Task-Agnostic Diagnostic for Information Fidelity in Text-to-Text Generation
- arxiv url: http://arxiv.org/abs/2601.19350v1
- Date: Tue, 27 Jan 2026 08:30:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.250136
- Title: Cross-Examination Framework: A Task-Agnostic Diagnostic for Information Fidelity in Text-to-Text Generation
- Title(参考訳): クロスエグゼクティブフレームワーク:テキスト・テキスト・ジェネレーションにおける情報忠実性のタスク非依存診断
- Authors: Tathagata Raha, Clement Christophe, Nada Saadi, Hamza A Javed, Marco AF Pimentel, Ronnie Rajan, Praveenkumar Kanithi,
- Abstract要約: BLEUやBERTScoreといった従来のメトリクスは、生成テキストからテキストへのタスクのセマンティックな忠実さをキャプチャできない。
我々は,参照のない多次元評価にCEF(Cross-Examination Framework)を適用した。
CEFは各テキストから検証可能な質問を生成し、相互検査を行い、3つの解釈可能なスコア(カバレッジ、整合性、一貫性)を導出する。
- 参考スコア(独自算出の注目度): 1.405010905897415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional metrics like BLEU and BERTScore fail to capture semantic fidelity in generative text-to-text tasks. We adapt the Cross-Examination Framework (CEF) for a reference-free, multi-dimensional evaluation by treating the source and candidate as independent knowledge bases. CEF generates verifiable questions from each text and performs a cross-examination to derive three interpretable scores: Coverage, Conformity, and Consistency. Validated across translation, summarization and clinical note-generation, our framework identifies critical errors, such as content omissions and factual contradictions, missed by standard metrics. A key contribution is a systematic robustness analysis to select a stable judge model. Crucially, the strong correlation between our reference-free and with-reference modes validates CEF's reliability without gold references. Furthermore, human expert validation demonstrates that CEF mismatching questions align with meaning-altering semantic errors higher than with non-semantic errors, particularly excelling at identifying entity-based and relational distortions.
- Abstract(参考訳): BLEUやBERTScoreといった従来のメトリクスは、生成テキストからテキストへのタスクのセマンティックな忠実さをキャプチャできない。
我々は、ソースと候補を独立した知識ベースとして扱うことにより、基準のない多次元評価にクロスエグゼクティブ・フレームワーク(CEF)を適用する。
CEFは各テキストから検証可能な質問を生成し、相互検査を行い、3つの解釈可能なスコア(カバレッジ、整合性、一貫性)を導出する。
本フレームワークは,翻訳,要約,臨床メモ生成にまたがって検証され,標準指標に欠落した内容欠落や事実矛盾などの致命的な誤りを識別する。
重要な貢献は、安定な判断モデルを選択するための体系的な堅牢性分析である。
重要なことは、基準のないモードと非参照モードの強い相関は、金の参照なしでCEFの信頼性を検証する。
さらに、人間の専門家による検証では、CEFのミスマッチ質問は意味変更による意味的誤りと一致し、非意味的誤りよりも高く、特にエンティティベースおよび関係的歪みの識別に優れていた。
関連論文リスト
- TRACE: A Framework for Analyzing and Enhancing Stepwise Reasoning in Vision-Language Models [9.607579442309639]
本稿では,トランスペアレント推論と一貫性評価のためのフレームワークであるTRACEを紹介する。
TRACEleverages Auxiliary Reasoning Setsは複雑な問題を分解する。
実験の結果, ARS間の整合性は最終回答の正しさと相関していることがわかった。
TRACEは信頼できない推論パスと信頼できない推論パスを区別する信頼領域を定義する。
論文 参考訳(メタデータ) (2025-12-05T18:40:18Z) - SCORE: A Semantic Evaluation Framework for Generative Document Parsing [2.5101597298392098]
マルチモーダル生成文書解析システムは意味論的に正しいが構造的に異なる出力を生成する。
従来のメトリクス-CER, WER, IoU, TEDS-misclassized such diversity as error, penalizing valid interpretations and obscuring system behavior。
SCORE, (i) 調整した編集距離を頑健な内容の忠実度と統合する解釈非依存のフレームワーク, (ii) トークンレベルの診断で幻覚と排便を区別する, (iii) 空間的寛容とセマンティックアライメントによるテーブル評価, (iv) 階層対応の整合性チェックを紹介する。
論文 参考訳(メタデータ) (2025-09-16T16:06:19Z) - A Context-Aware Dual-Metric Framework for Confidence Estimation in Large Language Models [6.62851757612838]
大規模言語モデル(LLM)に対する現在の信頼度推定法は,応答と文脈情報の関連性を無視する。
本稿では,2つの新しい指標を用いた信頼度推定のためのコンテキスト忠実度と一貫性を統合したCRUXを提案する。
3つのベンチマークデータセットに対する実験は、CRUXの有効性を示し、既存のベースラインよりも高いAUROCを達成した。
論文 参考訳(メタデータ) (2025-08-01T12:58:34Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Localizing Factual Inconsistencies in Attributable Text Generation [74.11403803488643]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
QASemConsistencyは、人間の判断とよく相関する事実整合性スコアを得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Zero-shot Faithful Factual Error Correction [53.121642212060536]
事実の誤りを忠実に訂正することは、テキストの知識基盤の整合性を維持し、シーケンス・ツー・シーケンス・モデルにおける幻覚を防ぐために重要である。
提案するゼロショットフレームワークは,入力クレームに関する質問を定式化し,与えられたエビデンスにおける正しい回答を求め,そのエビデンスとの整合性に基づいて各補正の忠実さを評価する。
論文 参考訳(メタデータ) (2023-05-13T18:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。