Fugu-MT 論文翻訳(概要): Evidence-backed Fact Checking using RAG and Few-Shot In-Context Learning with LLMs

論文の概要: Evidence-backed Fact Checking using RAG and Few-Shot In-Context Learning with LLMs

arxiv url: http://arxiv.org/abs/2408.12060v1
Date: Thu, 22 Aug 2024 01:42:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-23 15:33:26.033713
Title: Evidence-backed Fact Checking using RAG and Few-Shot In-Context Learning with LLMs
Title（参考訳）: LLMを用いたRAGとFew-Shot In-Context Learningを用いたエビデンス支援Fact Checking
Authors: Ronit Singhal, Pransh Patwa, Parth Patwa, Aman Chadha, Amitava Das,
Abstract要約: 我々はAveritecデータセットを用いてクレームの正確性を評価する。精度予測に加えて,本システムでは,データセットから抽出した証拠を裏付ける。本システムでは,ベースラインに対する22%の絶対改善である0.33の「平均」スコアを達成している。
参考スコア（独自算出の注目度）: 9.785096589765908
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Given the widespread dissemination of misinformation on social media, implementing fact-checking mechanisms for online claims is essential. Manually verifying every claim is highly challenging, underscoring the need for an automated fact-checking system. This paper presents our system designed to address this issue. We utilize the Averitec dataset to assess the veracity of claims. In addition to veracity prediction, our system provides supporting evidence, which is extracted from the dataset. We develop a Retrieve and Generate (RAG) pipeline to extract relevant evidence sentences from a knowledge base, which are then inputted along with the claim into a large language model (LLM) for classification. We also evaluate the few-shot In-Context Learning (ICL) capabilities of multiple LLMs. Our system achieves an 'Averitec' score of 0.33, which is a 22% absolute improvement over the baseline. All code will be made available on All code will be made available on https://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-lea rning-with-llms.
Abstract（参考訳）: ソーシャルメディア上で偽情報の拡散が広まる中、オンラインクレームのファクトチェック機構を実装することが不可欠である。すべてのクレームを手動で検証することは極めて困難であり、自動化されたファクトチェックシステムの必要性を強調している。本稿では,この問題に対処するためのシステムについて述べる。我々はAveritecデータセットを用いてクレームの正確性を評価する。精度予測に加えて,本システムでは,データセットから抽出した証拠を裏付ける。本研究では,知識ベースから関連するエビデンス文を抽出する検索・生成(RAG)パイプラインを開発し,そのクレームとともに分類のための大規模言語モデル(LLM)に入力する。また,複数のLLMのICL(In-Context Learning)機能についても検討した。本システムでは,ベースラインに対する22%の絶対改善である0.33の「平均」スコアを達成している。すべてのコードはhttps://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-lea rning-with-llmsで利用可能になる。

関連論文リスト

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
Towards Automated Fact-Checking of Real-World Claims: Exploring Task Formulation and Assessment with LLMs [32.45604456988931]
本研究では,Large Language Models(LLMs)を用いたAFC(Automated Fact-Checking)のベースライン比較を確立する。また,2007-2024年にPoitiFactから収集された17,856件のクレームに対して,制限されたWeb検索によって得られた証拠を用いてLlama-3モデルの評価を行った。以上の結果から, LLMは微調整をせずに, 分類精度, 正当化品質において, より小型のLLMより一貫して優れていたことが示唆された。
論文参考訳（メタデータ） (2025-02-13T02:51:17Z)
A RAG-Based Institutional Assistant [0.1499944454332829]
我々は,サンパウロ大学に特化されたRAGベースの仮想アシスタントの設計と評価を行った。最適レトリバーモデルではトップ5の精度が30%,最も有効な生成モデルでは22.04%,真理回答では22.04%のスコアが得られた。
論文参考訳（メタデータ） (2025-01-23T17:54:19Z)
Multi-hop Evidence Pursuit Meets the Web: Team Papelo at FEVER 2024 [1.3923460621808879]
大規模言語モデル(LLM)の推論能力と,現代の検索エンジンの検索能力を組み合わせることで,この処理を自動化できることが示されている。マルチホップエビデンス追跡戦略の下で,LSMと検索を統合した。提案システムでは,開発セットで.510 AVeriTeC,テストセットで.477 AVeriTeCを達成した。
論文参考訳（メタデータ） (2024-11-08T18:25:06Z)
ChunkRAG: Novel LLM-Chunk Filtering Method for RAG Systems [2.8692611791027893]
Retrieval-Augmented Generation (RAG) システムは、無関係またはゆるい関連情報の検索によって不正確な応答を生成する。チャンクレベルで取得した情報を評価・フィルタリングすることでRAGシステムを強化するフレームワークであるChunkRAGを提案する。
論文参考訳（メタデータ） (2024-10-25T14:07:53Z)
Declarative Knowledge Distillation from Large Language Models for Visual Question Answering Datasets [9.67464173044675]
VQA(Visual Question Answering)は、画像に関する質問に答えるタスクである。本稿では,Large Language Models (LLMs) からの宣言的知識蒸留手法を提案する。以上の結果から,LSMから知識を抽出することは,データ駆動型ルール学習のアプローチ以外には有望な方向であることが確認された。
論文参考訳（メタデータ） (2024-10-12T08:17:03Z)
Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。データセットの精度は6%向上した。
論文参考訳（メタデータ） (2024-10-07T00:09:50Z)
Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation [19.312330150540912]
新たなアプリケーションは、Large Language Models(LLMs)を使用して、検索強化世代(RAG)機能を強化している。 FRAMESは,LLMが現実的な応答を提供する能力をテストするために設計された高品質な評価データセットである。本稿では,最先端のLLMでもこの課題に対処し,0.40の精度で検索を行なわないことを示す。
論文参考訳（メタデータ） (2024-09-19T17:52:07Z)
OpenFactCheck: A Unified Framework for Factuality Evaluation of LLMs [64.25176233153657]
OpenFactCheckは、大規模な言語モデルのためのオープンソースのファクトチェックフレームワークである。ユーザーは自動的にファクトチェックシステムを簡単にカスタマイズできる。また、そのシステムを用いて、入力文書におけるすべてのクレームの事実性を評価する。
論文参考訳（メタデータ） (2024-08-06T15:49:58Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems [103.91826112815384]
引用ベースのQAシステムは2つの欠点に悩まされている。彼らは通常、抽出された知識の源としてWebにのみ依存し、外部の知識ソースを追加することで、システムの効率を損なう。システムに供給された知識の内容を充実させるため,Web と効率的な知識グラフ (KG) 検索ソリューション (EWEK-QA) を提案する。
論文参考訳（メタデータ） (2024-06-14T19:40:38Z)
Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。 InFO-RAGは低コストで、様々なタスクにまたがっている。 LLaMA2の性能を平均9.39%向上させる。
論文参考訳（メタデータ） (2024-02-28T08:24:38Z)
Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-16T18:23:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。