論文の概要: Evidence-backed Fact Checking using RAG and Few-Shot In-Context Learning with LLMs
- arxiv url: http://arxiv.org/abs/2408.12060v2
- Date: Fri, 4 Oct 2024 19:31:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 05:49:00.839968
- Title: Evidence-backed Fact Checking using RAG and Few-Shot In-Context Learning with LLMs
- Title(参考訳): LLMを用いたRAGとFew-Shot In-Context Learningを用いたエビデンス支援Fact Checking
- Authors: Ronit Singhal, Pransh Patwa, Parth Patwa, Aman Chadha, Amitava Das,
- Abstract要約: ファクトチェックシステムの性能評価には,Averitecデータセットを使用します。
精度予測に加えて,本システムでは,データセットから抽出した証拠を裏付ける。
本システムでは,ベースラインに対する22%の絶対改善である0.33の「平均」スコアを達成している。
- 参考スコア(独自算出の注目度): 9.785096589765908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given the widespread dissemination of misinformation on social media, implementing fact-checking mechanisms for online claims is essential. Manually verifying every claim is very challenging, underscoring the need for an automated fact-checking system. This paper presents our system designed to address this issue. We utilize the Averitec dataset (Schlichtkrull et al., 2023) to assess the performance of our fact-checking system. In addition to veracity prediction, our system provides supporting evidence, which is extracted from the dataset. We develop a Retrieve and Generate (RAG) pipeline to extract relevant evidence sentences from a knowledge base, which are then inputted along with the claim into a large language model (LLM) for classification. We also evaluate the few-shot In-Context Learning (ICL) capabilities of multiple LLMs. Our system achieves an 'Averitec' score of 0.33, which is a 22% absolute improvement over the baseline. Our Code is publicly available on https://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-lea rning-with-llms.
- Abstract(参考訳): ソーシャルメディア上で偽情報の拡散が広まる中、オンラインクレームのファクトチェック機構を実装することが不可欠である。
すべてのクレームを手動で検証することは非常に困難で、自動化されたファクトチェックシステムの必要性を強調します。
本稿では,この問題に対処するためのシステムについて述べる。
Averitec データセット (Schlichtkrull et al , 2023) を用いてファクトチェックシステムの性能を評価する。
精度予測に加えて,本システムでは,データセットから抽出した証拠を裏付ける。
本研究では,知識ベースから関連するエビデンス文を抽出する検索・生成(RAG)パイプラインを開発し,そのクレームとともに分類のための大規模言語モデル(LLM)に入力する。
また,複数のLLMのICL(In-Context Learning)機能についても検討した。
本システムでは,ベースラインに対する22%の絶対改善である0.33の「平均」スコアを達成している。
私たちのコードはhttps://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-in-context-learning -with-llmsで公開されています。
関連論文リスト
- Multi-hop Evidence Pursuit Meets the Web: Team Papelo at FEVER 2024 [1.3923460621808879]
大規模言語モデル(LLM)の推論能力と,現代の検索エンジンの検索能力を組み合わせることで,この処理を自動化できることが示されている。
マルチホップエビデンス追跡戦略の下で,LSMと検索を統合した。
提案システムでは,開発セットで.510 AVeriTeC,テストセットで.477 AVeriTeCを達成した。
論文 参考訳(メタデータ) (2024-11-08T18:25:06Z) - ChunkRAG: Novel LLM-Chunk Filtering Method for RAG Systems [2.8692611791027893]
Retrieval-Augmented Generation (RAG) システムは、無関係またはゆるい関連情報の検索によって不正確な応答を生成する。
チャンクレベルで取得した情報を評価・フィルタリングすることでRAGシステムを強化するフレームワークであるChunkRAGを提案する。
論文 参考訳(メタデータ) (2024-10-25T14:07:53Z) - Declarative Knowledge Distillation from Large Language Models for Visual Question Answering Datasets [9.67464173044675]
VQA(Visual Question Answering)は、画像に関する質問に答えるタスクである。
本稿では,Large Language Models (LLMs) からの宣言的知識蒸留手法を提案する。
以上の結果から,LSMから知識を抽出することは,データ駆動型ルール学習のアプローチ以外には有望な方向であることが確認された。
論文 参考訳(メタデータ) (2024-10-12T08:17:03Z) - Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。
我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。
データセットの精度は6%向上した。
論文 参考訳(メタデータ) (2024-10-07T00:09:50Z) - Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation [19.312330150540912]
新たなアプリケーションは、Large Language Models(LLMs)を使用して、検索強化世代(RAG)機能を強化している。
FRAMESは,LLMが現実的な応答を提供する能力をテストするために設計された高品質な評価データセットである。
本稿では,最先端のLLMでもこの課題に対処し,0.40の精度で検索を行なわないことを示す。
論文 参考訳(メタデータ) (2024-09-19T17:52:07Z) - OpenFactCheck: A Unified Framework for Factuality Evaluation of LLMs [64.25176233153657]
OpenFactCheckは、大規模な言語モデルのためのオープンソースのファクトチェックフレームワークである。
ユーザーは自動的にファクトチェックシステムを簡単にカスタマイズできる。
また、そのシステムを用いて、入力文書におけるすべてのクレームの事実性を評価する。
論文 参考訳(メタデータ) (2024-08-06T15:49:58Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems [103.91826112815384]
引用ベースのQAシステムは2つの欠点に悩まされている。
彼らは通常、抽出された知識の源としてWebにのみ依存し、外部の知識ソースを追加することで、システムの効率を損なう。
システムに供給された知識の内容を充実させるため,Web と 効率的な知識グラフ (KG) 検索ソリューション (EWEK-QA) を提案する。
論文 参考訳(メタデータ) (2024-06-14T19:40:38Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。