論文の概要: Improving the fact-checking performance of language models by relying on their entailment ability
- arxiv url: http://arxiv.org/abs/2505.15050v1
- Date: Wed, 21 May 2025 03:15:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.833792
- Title: Improving the fact-checking performance of language models by relying on their entailment ability
- Title(参考訳): 言語モデルのファクトチェック能力の向上
- Authors: Gaurav Kumar, Debajyoti Mazumder, Ayush Garg, Jasabanta Patro,
- Abstract要約: 現在のファクトチェックアプローチは、言語モデルの組み込み知識に依存している。
本稿では,言語モデルの包含と生成能力に依存する,シンプルで効果的な手法を提案する。
これらの正当化に基づいて言語モデルを訓練し、優れた結果を得た。
- 参考スコア(独自算出の注目度): 2.4588375162098877
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Automated fact-checking is a crucial task in this digital age. To verify a claim, current approaches majorly follow one of two strategies i.e. (i) relying on embedded knowledge of language models, and (ii) fine-tuning them with evidence pieces. While the former can make systems to hallucinate, the later have not been very successful till date. The primary reason behind this is that fact verification is a complex process. Language models have to parse through multiple pieces of evidence before making a prediction. Further, the evidence pieces often contradict each other. This makes the reasoning process even more complex. We proposed a simple yet effective approach where we relied on entailment and the generative ability of language models to produce ''supporting'' and ''refuting'' justifications (for the truthfulness of a claim). We trained language models based on these justifications and achieved superior results. Apart from that, we did a systematic comparison of different prompting and fine-tuning strategies, as it is currently lacking in the literature. Some of our observations are: (i) training language models with raw evidence sentences registered an improvement up to 8.20% in macro-F1, over the best performing baseline for the RAW-FC dataset, (ii) similarly, training language models with prompted claim-evidence understanding (TBE-2) registered an improvement (with a margin up to 16.39%) over the baselines for the same dataset, (iii) training language models with entailed justifications (TBE-3) outperformed the baselines by a huge margin (up to 28.57% and 44.26% for LIAR-RAW and RAW-FC, respectively). We have shared our code repository to reproduce the results.
- Abstract(参考訳): 自動ファクトチェックは、このデジタル時代の重要な課題である。
クレームを検証するために、現在のアプローチは2つの戦略のうちの1つに大きく従っている。
一 言語モデルの組込み知識に依存して、
(二 証拠片で微調整すること。)
前者は幻覚のシステムを作ることができるが、後者は今のところあまり成功していない。
その主な理由は、事実検証が複雑なプロセスであるからである。
言語モデルは、予測する前に複数のエビデンスを解析する必要がある。
さらに、証拠は互いに矛盾することが多い。
これにより、推論プロセスはさらに複雑になる。
そこで我々は,「支持」と「反感」の正当性(主張の真理性)を生み出すための言語モデルの包含と生成能力に頼った,シンプルで効果的なアプローチを提案した。
これらの正当化に基づいて言語モデルを訓練し、優れた結果を得た。
それとは別に、現在文献に欠けているため、さまざまなプロンプトと微調整戦略を体系的に比較した。
私たちの観察のいくつかは以下のとおりです。
(i)RAW-FCデータセットの最高性能ベースラインに比較して,生のエビデンス文を用いた訓練言語モデルではマクロF1が最大8.20%向上した。
(ii) 同様に、クレームエビデンス理解(TBE-2)によるトレーニング言語モデルは、同じデータセットのベースラインよりも改善(マージンが最大16.39%)した。
三 LIAR-RAW と RAW-FC でそれぞれ 28.57% と 44.26% である。
結果を再現するために、コードリポジトリを共有しました。
関連論文リスト
- Fact or Fiction? Improving Fact Verification with Knowledge Graphs through Simplified Subgraph Retrievals [0.0]
本稿では, 証拠が構造化知識グラフの形で存在するデータセット上で, クレームを検証するための効率的な方法を提案する。
また,エビデンス検索プロセスの簡略化により,計算資源の削減とテストセット精度の向上を実現するモデルの構築が可能となる。
論文 参考訳(メタデータ) (2024-08-14T10:46:15Z) - Do We Need Language-Specific Fact-Checking Models? The Case of Chinese [15.619421104102516]
本稿では,中国語の事例に着目し,言語固有の事実チェックモデルの潜在的なメリットについて検討する。
まず、翻訳に基づく手法と多言語大言語モデルの限界を実証し、言語固有のシステムの必要性を強調した。
文脈情報を組み込んで文書から証拠をよりよく検索できる中国のファクトチェックシステムを提案する。
論文 参考訳(メタデータ) (2024-01-27T20:26:03Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - APOLLO: A Simple Approach for Adaptive Pretraining of Language Models
for Logical Reasoning [73.3035118224719]
本稿では,論理的推論能力を改善した適応事前学習型言語モデルAPOLLOを提案する。
APOLLOはReClorで比較可能であり、LogiQAでベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-19T07:40:02Z) - ALERT: Adapting Language Models to Reasoning Tasks [43.8679673685468]
ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートである。
ALERTは、あらゆる言語モデルに対して、きめ細かい推論スキルを評価するためのテストベッドを提供する。
言語モデルは、事前学習状態と比較して、微調整段階の推論スキルを学習する。
論文 参考訳(メタデータ) (2022-12-16T05:15:41Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。