論文の概要: SynClaimEval: A Framework for Evaluating the Utility of Synthetic Data in Long-Context Claim Verification
- arxiv url: http://arxiv.org/abs/2511.09539v1
- Date: Thu, 13 Nov 2025 02:01:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.614364
- Title: SynClaimEval: A Framework for Evaluating the Utility of Synthetic Data in Long-Context Claim Verification
- Title(参考訳): SynClaimEval: 長期的クレーム検証における合成データの有用性評価フレームワーク
- Authors: Mohamed Elaraby, Jyoti Prakash Maheswari,
- Abstract要約: 長文クレーム検証における合成データの有用性を評価するためのフレームワークであるSynClaimEvalを紹介する。
本フレームワークでは,文脈長の変化による入力特性,ドメイン外ベンチマークへの一般化テスト,クレームの複雑性とエラータイプの変化を制御した合成ロジック,モデル説明が予測に合致する証拠を提供する度合いを計測した説明品質の3つの次元について検討する。
- 参考スコア(独自算出の注目度): 1.740313383876245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) with extended context windows promise direct reasoning over long documents, reducing the need for chunking or retrieval. Constructing annotated resources for training and evaluation, however, remains costly. Synthetic data offers a scalable alternative, and we introduce SynClaimEval, a framework for evaluating synthetic data utility in long-context claim verification -- a task central to hallucination detection and fact-checking. Our framework examines three dimensions: (i) input characteristics, by varying context length and testing generalization to out-of-domain benchmarks; (ii) synthesis logic, by controlling claim complexity and error type variation; and (iii) explanation quality, measuring the degree to which model explanations provide evidence consistent with predictions. Experiments across benchmarks show that long-context synthesis can improve verification in base instruction-tuned models, particularly when augmenting existing human-written datasets. Moreover, synthesis enhances explanation quality, even when verification scores do not improve, underscoring its potential to strengthen both performance and explainability.
- Abstract(参考訳): 拡張コンテキストウィンドウを持つ大規模言語モデル(LLM)は、長いドキュメントを直接推論することを約束し、チャンキングや検索の必要性を減らす。
しかし、トレーニングと評価のための注釈付きリソースの構築は、依然としてコストがかかる。
SynClaimEvalは、長期コンテキストのクレーム検証において、合成データユーティリティを評価するフレームワークであり、幻覚検出とファクトチェックの中心となるタスクである。
私たちのフレームワークは3つの次元を調べます。
(i)文脈長の異なる入力特性とドメイン外のベンチマークへのテスト一般化
二 クレームの複雑さ及びエラータイプの変動を制御して合成論理
三 モデル説明が予測と整合した証拠を提供する程度を計測し、品質を説明すること。
ベンチマークによる実験では、特に既存の人書きデータセットを増大させる場合、長いコンテキスト合成がベース命令チューニングモデルの検証を改善することが示されている。
さらに, 評価スコアが改善しない場合でも, 合成により説明品質が向上し, 性能と説明可能性の両立が図られる。
関連論文リスト
- EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning [63.03672166010434]
我々は、進化的、タスクに依存しない、戦略を導いた、実行可能検証可能なデータ合成フレームワークを紹介します。
問題、多様な候補解、検証成果物を共同で合成する。
これは、人間による注釈付きチェックと戦略によるチェックの合意を強制する一貫性に基づく評価器を通じて戦略を反復的に発見する。
論文 参考訳(メタデータ) (2025-10-20T11:56:35Z) - Autoformalizer with Tool Feedback [52.334957386319864]
自動形式化は、数学的問題を自然言語から形式的ステートメントに変換することによって、ATP(Automated Theorem Proving)のデータ不足に対処する。
既存のフォーミュラライザは、構文的妥当性とセマンティック一貫性を満たす有効なステートメントを一貫して生成することに苦慮している。
本稿では,ツールフィードバックを用いたオートフォーマライザ (ATF) を提案する。
論文 参考訳(メタデータ) (2025-10-08T10:25:12Z) - A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - TARGA: Targeted Synthetic Data Generation for Practical Reasoning over Structured Data [9.390415313514762]
TARGAは、手動のアノテーションなしで高関連性合成データを生成するフレームワークである。
これは、クローズソースモデルを使用する既存の非微調整手法よりも大幅に優れている。
非I.I.D.設定下では、優れたサンプル効率、堅牢性、一般化能力を示す。
論文 参考訳(メタデータ) (2024-12-27T09:16:39Z) - Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - Causality for Tabular Data Synthesis: A High-Order Structure Causal Benchmark Framework [18.11940247961923]
本稿では,自然の先行知識として高次構造因果情報を導入する。
合成データの質を評価するために,複数のベンチマークタスク,高次メトリクス,因果推論タスクを下流タスクとして提案する。
論文 参考訳(メタデータ) (2024-06-12T15:12:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。