論文の概要: DecMetrics: Structured Claim Decomposition Scoring for Factually Consistent LLM Outputs
- arxiv url: http://arxiv.org/abs/2509.04483v1
- Date: Sun, 31 Aug 2025 10:22:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.32303
- Title: DecMetrics: Structured Claim Decomposition Scoring for Factually Consistent LLM Outputs
- Title(参考訳): デデメトリ: 有限整合LDM出力のための構造化クレーム分解スコーリング
- Authors: Minghui Huang,
- Abstract要約: textttCOMPLETENESS, textttCORRECTNESS, textttSEMANTIC ENTROPY の3つの新しいメトリクスから成る textbfDecMetrics を導入する。
提案手法は,クレーム分解のベンチマークを設定し,ファクトチェックシステムの信頼性と有効性を向上させることを目的とする。
- 参考スコア(独自算出の注目度): 0.609170287691728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Claim decomposition plays a crucial role in the fact-checking process by breaking down complex claims into simpler atomic components and identifying their unfactual elements. Despite its importance, current research primarily focuses on generative methods for decomposition, with insufficient emphasis on evaluating the quality of these decomposed atomic claims. To bridge this gap, we introduce \textbf{DecMetrics}, which comprises three new metrics: \texttt{COMPLETENESS}, \texttt{CORRECTNESS}, and \texttt{SEMANTIC ENTROPY}, designed to automatically assess the quality of claims produced by decomposition models. Utilizing these metrics, we develop a lightweight claim decomposition model, optimizing its performance through the integration of these metrics as a reward function. Through automatic evaluation, our approach aims to set a benchmark for claim decomposition, enhancing both the reliability and effectiveness of fact-checking systems.
- Abstract(参考訳): クレーム分解は、複雑なクレームを単純な原子部品に分解し、それらの非現実的要素を特定することによって、ファクトチェックプロセスにおいて重要な役割を果たす。
その重要性にもかかわらず、現在の研究は主に分解のための生成方法に焦点を当てており、これらの分解された原子クレームの質を評価することにはあまり重点を置いていない。
このギャップを埋めるために、分解モデルによって生成されたクレームの質を自動的に評価するように設計された、新しい3つの指標である \texttt{COMPLETENESS}, \texttt{CORRECTNESS}, \texttt{SEMANTIC ENTROPY} を紹介する。
これらのメトリクスを利用して軽量なクレーム分解モデルを構築し、これらのメトリクスを報酬関数として統合することでその性能を最適化する。
提案手法は,自動評価によりクレーム分解のベンチマークを設定し,ファクトチェックシステムの信頼性と有効性を高めることを目的としている。
関連論文リスト
- Arg-LLaDA: Argument Summarization via Large Language Diffusion Models and Sufficiency-Aware Refinement [27.673022970833163]
本稿では,要約を反復的に改善する新しい大規模言語拡散フレームワークArg-LLaDAを紹介する。
本手法では,フレキシブルマスキングコントローラと十分チェックモジュールを組み合わせることで,サポート対象,冗長,あるいは不完全なスパンを特定し,修正する。
2つのベンチマークデータセットの実証結果は、Arg-LLaDAが10の自動評価指標のうち7の最先端のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-07-25T09:07:52Z) - AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - MoC: Mixtures of Text Chunking Learners for Retrieval-Augmented Generation System [11.793639794583498]
本稿では,境界明瞭度とチャンクスティックネスを組み合わせた2次元評価手法を提案する。
我々は、複雑なコンテキストニュアンスを扱う際に、伝統的および意味的なチャンキングの固有の制限を強調します。
3段階の処理機構からなるMixture-Aware Mixture-of-Chunkers (MoC) フレームワークを考案した。
論文 参考訳(メタデータ) (2025-03-12T17:59:42Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - Localizing Factual Inconsistencies in Attributable Text Generation [74.11403803488643]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
QASemConsistencyは、人間の判断とよく相関する事実整合性スコアを得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - A Closer Look at Claim Decomposition [42.07832693585166]
本稿では,最近提案されたFActScoreなどの評価手法が,クレームの分解方法にどのような影響を及ぼすかを検討する。
そこで我々は,ベルトランド・ラッセルの論理的原子論とネオダビッドソン意味論に触発された分解を生成するための LLM ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:03:45Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - Multi-Fact Correction in Abstractive Text Summarization [98.27031108197944]
Span-Factは、質問応答モデルから学んだ知識を活用して、スパン選択によるシステム生成サマリーの補正を行う2つの事実補正モデルのスイートである。
我々のモデルは、ソースコードのセマンティック一貫性を確保するために、反復的または自動回帰的にエンティティを置き換えるために、シングルまたはマルチマスキング戦略を採用している。
実験の結果,自動測定と人的評価の両面において,要約品質を犠牲にすることなく,システム生成要約の事実整合性を大幅に向上させることができた。
論文 参考訳(メタデータ) (2020-10-06T02:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。