論文の概要: AlignCheck: a Semantic Open-Domain Metric for Factual Consistency Assessment
- arxiv url: http://arxiv.org/abs/2512.03634v1
- Date: Wed, 03 Dec 2025 10:14:31 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:15:09.733029
- Title: AlignCheck: a Semantic Open-Domain Metric for Factual Consistency Assessment
- Title(参考訳): AlignCheck:Factual Consistencyアセスメントのためのセマンティックなオープンドメインメトリクス
- Authors: Ahmad Aghaebrahimian,
- Abstract要約: ドメイン内およびオープンドメインテキストの事実整合性評価のための解釈可能なフレームワークを提案する。
提案手法では,テキストをアトミックな事実に分解し,フレキシブルでスキーマフリーな手法を導入する。
一般的な一般的なデータセットと臨床データセットにアプローチをベンチマークし、事実認識モデルトレーニングをサポートするためにコードをリリースします。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large Language Models have significantly advanced natural language processing tasks, but remain prone to generating incorrect or misleading but plausible arguments. This issue, known as hallucination, is particularly concerning in high-stakes domains like clinical applications, where factual inaccuracies can have severe consequences. Existing evaluation metrics fail to adequately assess factual consistency and lack interpretability, making diagnosing and mitigating errors difficult. We propose an interpretable framework for factual consistency assessment for in-domain and open-domain texts to address these limitations. Our approach decomposes text into atomic facts and introduces a flexible, schema-free methodology. Unlike previous methods with an absolute metric, we incorporate a weighted metric to enhance factual evaluation. Additionally, we propose a mechanism to control assessment complexity in intricate domains. We benchmark our approach on popular general and clinical datasets and release our code to support fact-aware model training in future research.
- Abstract(参考訳): 大規模言語モデルは、かなり高度な自然言語処理タスクを持つが、誤った、あるいは誤解を招くが、証明可能な引数を生成する傾向にある。
幻覚として知られるこの問題は、特に臨床応用のような高度な領域において、事実的不正確さが深刻な結果をもたらす可能性がある。
既存の評価指標は、事実の一貫性を適切に評価できず、解釈可能性の欠如が原因で、エラーの診断と緩和が困難になる。
本稿では,これらの制約に対応するために,ドメイン内およびオープンドメインテキストの事実整合性評価のための解釈可能なフレームワークを提案する。
提案手法では,テキストをアトミックな事実に分解し,フレキシブルでスキーマフリーな手法を導入する。
絶対測度を持つ従来の方法とは異なり、実測値を高めるために重み付き測度を組み込む。
さらに,複雑な領域における評価複雑性を制御する機構を提案する。
我々は、一般的な一般的なデータセットと臨床データセットにアプローチをベンチマークし、将来の研究でファクト・アウェア・モデルトレーニングをサポートするためにコードをリリースします。
関連論文リスト
- Hallucination to Truth: A Review of Fact-Checking and Factuality Evaluation in Large Language Models [2.0861090421004937]
大規模言語モデル(LLM)は、不正確なコンテンツや誤解を招くコンテンツを含む多種多様なインターネットコーパスで訓練されている。
本総説では,LLM生成したコンテンツが現実の精度でどのように評価されるかを系統的に分析する。
論文 参考訳(メタデータ) (2025-08-05T19:20:05Z) - MedScore: Generalizable Factuality Evaluation of Free-Form Medical Answers by Domain-adapted Claim Decomposition and Verification [51.82420076479152]
MedScoreは、医学的回答を条件対応の有効な事実に分解し、ドメイン内コーパスに対する検証を行うための新しいパイプラインである。
提案手法は,既存の方法に比べて最大3倍有効な事実を抽出し,幻覚や曖昧な参照を低減し,事実の条件依存性を維持する。
論文 参考訳(メタデータ) (2025-05-24T01:23:09Z) - PlainQAFact: Retrieval-augmented Factual Consistency Evaluation Metric for Biomedical Plain Language Summarization [5.5899921245557]
大きな言語モデルから得られた幻覚的アウトプットは、医療領域にリスクをもたらす。
そこで我々はPlainQAFactを紹介した。PlainFactは、人間に注釈を付けた詳細なデータセットに基づいてトレーニングされた、自動的な事実整合性評価指標である。
論文 参考訳(メタデータ) (2025-03-11T20:59:53Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。