論文の概要: Improving the fact-checking performance of language models by relying on their entailment ability
- arxiv url: http://arxiv.org/abs/2505.15050v2
- Date: Tue, 05 Aug 2025 18:17:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 15:43:08.695389
- Title: Improving the fact-checking performance of language models by relying on their entailment ability
- Title(参考訳): 言語モデルのファクトチェック能力の向上
- Authors: Gaurav Kumar, Debajyoti Mazumder, Ayush Garg, Jasabanta Patro,
- Abstract要約: ファクトチェック性能を改善するための簡易かつ効果的な戦略を提案する。
この戦略は、ファクトチェックのパフォーマンスを改善するために言語モデルの詳細な能力に依存する。
結果を再現するために、コードリポジトリを共有しました。
- 参考スコア(独自算出の注目度): 2.4588375162098877
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Automated fact-checking is a crucial task in this digital age. The NLP community has been trying various strategies to build robust fact-checking systems. However, we have not been very successful yet. One main reason behind this is that fact verification is a complex process. Language models have to parse through multiple pieces of evidence, often contradicting each other, to predict a claim's veracity. In this paper, we proposed a simple yet effective strategy, where we relied on the entailment ability of language models to improve the fact-checking performance. Apart from that, we did a comparison of different prompting and fine-tuning strategies, as it is currently lacking in the literature. Some of our observations are: (i) training language models with raw evidence sentences (TBE-1) and overall claim-evidence understanding (TBE-2) resulted in an improvement up to 8.20% and 16.39% in macro-F1 for RAW-FC dataset, and (ii) training language models with entailed justifications (TBE-3) outperformed the baselines by a huge margin (up to 28.57% and 44.26% for LIAR-RAW and RAW-FC, respectively). We have shared our code repository to reproduce the results.
- Abstract(参考訳): 自動ファクトチェックは、このデジタル時代の重要な課題である。
NLPコミュニティは、堅牢なファクトチェックシステムを構築するための様々な戦略を模索してきた。
しかし、まだあまり成功していません。
この背景にある主な理由は、事実検証が複雑なプロセスであることだ。
言語モデルは、クレームの正確性を予測するために、複数の証拠を解析し、しばしば互いに矛盾する。
本稿では,ファクトチェック性能を向上させるために,言語モデルの詳細化能力に頼った,シンプルで効果的な手法を提案する。
それとは別に、現在文献に欠けているため、さまざまなプロンプトと微調整の戦略の比較を行った。
私たちの観察のいくつかは以下のとおりです。
(i)生のエビデンス文(TBE-1)と総クレームエビデンス理解(TBE-2)による訓練言語モデルにより、RAW-FCデータセットのマクロF1の8.20%と16.39%の改善が得られた。
(II) 厳密な正当性(TBE-3)の訓練言語モデルは、LIAR-RAWとRAW-FCでそれぞれ28.57%、44.26%の差でベースラインを上回った。
結果を再現するために、コードリポジトリを共有しました。
関連論文リスト
- Evaluating LLMs' Multilingual Capabilities for Bengali: Benchmark Creation and Performance Analysis [0.0]
ベンガル語はNLP研究においてあまり表現されていない言語である。
ベンガルのNLP性能を阻害する課題を系統的に検討する。
ベンガル語では英語と比較して一貫した性能差がみられた。
論文 参考訳(メタデータ) (2025-07-31T05:16:43Z) - LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z) - Fact or Fiction? Improving Fact Verification with Knowledge Graphs through Simplified Subgraph Retrievals [0.0]
本稿では, 証拠が構造化知識グラフの形で存在するデータセット上で, クレームを検証するための効率的な方法を提案する。
また,エビデンス検索プロセスの簡略化により,計算資源の削減とテストセット精度の向上を実現するモデルの構築が可能となる。
論文 参考訳(メタデータ) (2024-08-14T10:46:15Z) - Do We Need Language-Specific Fact-Checking Models? The Case of Chinese [15.619421104102516]
本稿では,中国語の事例に着目し,言語固有の事実チェックモデルの潜在的なメリットについて検討する。
まず、翻訳に基づく手法と多言語大言語モデルの限界を実証し、言語固有のシステムの必要性を強調した。
文脈情報を組み込んで文書から証拠をよりよく検索できる中国のファクトチェックシステムを提案する。
論文 参考訳(メタデータ) (2024-01-27T20:26:03Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。
我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。
コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文 参考訳(メタデータ) (2023-02-24T18:59:51Z) - APOLLO: A Simple Approach for Adaptive Pretraining of Language Models
for Logical Reasoning [73.3035118224719]
本稿では,論理的推論能力を改善した適応事前学習型言語モデルAPOLLOを提案する。
APOLLOはReClorで比較可能であり、LogiQAでベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-19T07:40:02Z) - ALERT: Adapting Language Models to Reasoning Tasks [43.8679673685468]
ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートである。
ALERTは、あらゆる言語モデルに対して、きめ細かい推論スキルを評価するためのテストベッドを提供する。
言語モデルは、事前学習状態と比較して、微調整段階の推論スキルを学習する。
論文 参考訳(メタデータ) (2022-12-16T05:15:41Z) - Rationale-Guided Few-Shot Classification to Detect Abusive Language [5.977278650516324]
乱用言語検出のためのRGFS(Rationale-Guided Few-Shot Classification)を提案する。
2つの理性統合BERTアーキテクチャ(RGFSモデル)を導入し、5つの異なる乱用言語データセット上でシステムを評価する。
論文 参考訳(メタデータ) (2022-11-30T14:47:14Z) - Logical Reasoning with Span Predictions: Span-level Logical Atoms for
Interpretable and Robust NLI Models [19.601700560645206]
現在の自然言語推論(NLI)モデルは、時には非分配テストセットで人間よりも優れた結果が得られる。
我々はNLIのための論理的推論フレームワークを導入し、論理的ルールに基づいた極めて透明なモデル決定を作成します。
SNLIの性能をほぼ完全に維持しつつ、各モデル予測に責任を持つ正確な仮説を特定できます。
論文 参考訳(メタデータ) (2022-05-23T16:24:27Z) - Self-Consistency Improves Chain of Thought Reasoning in Language Models [53.45015291520658]
我々は,大規模言語モデルの推論精度を大幅に向上させる,単純なアンサンブル戦略,自己整合性を探究する。
算術的および常識的推論ベンチマークでは、自己整合性は大幅な精度の向上をもたらす。
論文 参考訳(メタデータ) (2022-03-21T17:48:52Z) - SimKGC: Simple Contrastive Knowledge Graph Completion with Pre-trained
Language Models [9.063614185765855]
本稿では, 単純負の形式として機能する, バッチ内負, バッチ前負, 自己負の3種類の負を導入する。
提案モデルであるSimKGCは,いくつかのベンチマークデータセットにおいて,埋め込みに基づく手法を大幅に上回ることができる。
平均相互ランク(MRR)に関しては、WN18RRでは+19%、Wikidata5Mでは+6.8%、Wikidata5Mでは+22%である。
論文 参考訳(メタデータ) (2022-03-04T07:36:30Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。