Fugu-MT 論文翻訳(概要): RAGAR, Your Falsehood Radar: RAG-Augmented Reasoning for Political Fact-Checking using Multimodal Large Language Models

論文の概要: RAGAR, Your Falsehood Radar: RAG-Augmented Reasoning for Political Fact-Checking using Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2404.12065v2
Date: Thu, 11 Jul 2024 20:16:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 04:47:43.044736
Title: RAGAR, Your Falsehood Radar: RAG-Augmented Reasoning for Political Fact-Checking using Multimodal Large Language Models
Title（参考訳）: RAGAR, your Falsehood Radar: RAG-Augmented Reasoning for Political Fact-Checking using Multimodal Large Language Models
Authors: M. Abdul Khaliq, P. Chang, M. Ma, B. Pflugfelder, F. Miletić,
Abstract要約: 我々は、RAGの連鎖(CoRAG)とRAGの木(ToRAG)の2つの新しい推論手法を紹介する。彼らは、テキストコンテンツと画像コンテンツの両方を抽出し、外部情報を取得し、その後の質問を事前の証拠に基づいて推論することで、マルチモーダルクレームを事実チェックする。人間の評価は、生成した事実確認説明の大部分は、金標準データから得られるすべての情報を含んでいることを確認します。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The escalating challenge of misinformation, particularly in political discourse, requires advanced fact-checking solutions; this is even clearer in the more complex scenario of multimodal claims. We tackle this issue using a multimodal large language model in conjunction with retrieval-augmented generation (RAG), and introduce two novel reasoning techniques: Chain of RAG (CoRAG) and Tree of RAG (ToRAG). They fact-check multimodal claims by extracting both textual and image content, retrieving external information, and reasoning subsequent questions to be answered based on prior evidence. We achieve a weighted F1-score of 0.85, surpassing a baseline reasoning technique by 0.14 points. Human evaluation confirms that the vast majority of our generated fact-check explanations contain all information from gold standard data.
Abstract（参考訳）: 誤報のエスカレートする課題、特に政治的言論においては、高度な事実確認ソリューションが必要である。本稿では,検索拡張世代(RAG)とともに多モーダルな言語モデルを用いてこの問題に取り組み,RAGの連鎖(CoRAG)とRAGのツリー(ToRAG)という2つの新しい推論手法を導入する。彼らは、テキストコンテンツと画像コンテンツの両方を抽出し、外部情報を取得し、その後の質問を事前の証拠に基づいて推論することで、マルチモーダルクレームを事実チェックする。重み付きF1スコアは0.85で、ベースライン推論法を0.14ポイント超える。人間の評価は、生成した事実確認説明の大部分は、金標準データから得られるすべての情報を含んでいることを確認します。

関連論文リスト

ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。 ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文参考訳（メタデータ） (2025-11-27T19:01:02Z)
MAVIS: A Benchmark for Multimodal Source Attribution in Long-form Visual Question Answering [44.41273615523289]
マルチモーダルソース属性システムを評価するための最初のベンチマークであるMAVISを紹介する。我々のデータセットは157Kの視覚的QAインスタンスで構成されており、各回答にはマルチモーダル文書を参照したファクトレベルの引用が注釈付けされている。本研究では,情報性,接地性,流感の3次元に沿って細粒度自動測定値を作成し,人間の判断と強い相関関係を示す。
論文参考訳（メタデータ） (2025-11-15T10:14:59Z)
Seeing Through the MiRAGE: Evaluating Multimodal Retrieval Augmented Generation [75.66731090275645]
マルチモーダルソースからの検索拡張生成(RAG)評価フレームワークであるMiRAGEを紹介する。 MiRAGEは、InfoF1とCiteF1で構成されるマルチモーダルRAG評価のためのクレーム中心のアプローチである。
論文参考訳（メタデータ） (2025-10-28T18:21:19Z)
Multi-Stage Verification-Centric Framework for Mitigating Hallucination in Multi-Modal RAG [3.9063541371093184]
本稿では, KDD Cup 2025 Meta Comprehensive RAG Benchmark for Multi-modal, Multi-turn (CRAG-MM) のチーム CRUISE による技術ソリューションを提案する。この課題は、視覚言語モデル(VLM)の重要な限界、すなわち幻覚への適合性に対処することを目的としている。本ソリューションでは,効率向上のための軽量なクエリルータ,クエリ対応検索と要約パイプライン,デュアルパス生成,ポストホック検証を統合した。
論文参考訳（メタデータ） (2025-07-27T05:45:45Z)
Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。この調査は両鎖を統一的推論-検索の観点から合成する。
論文参考訳（メタデータ） (2025-07-13T03:29:41Z)
RAMA: Retrieval-Augmented Multi-Agent Framework for Misinformation Detection in Multimodal Fact-Checking [15.160356035522609]
RAMAは、マルチメディアの誤情報を検証するために設計された新しい検索拡張マルチエージェントフレームワークである。 RAMAには,(1)マルチモーダルクレームを正確なWeb検索クエリに変換する戦略的クエリの定式化,(2)多様な権威ソースからの相互検証証拠の集約,(3)マルチエージェントアンサンブルアーキテクチャの3つの革新が含まれている。
論文参考訳（メタデータ） (2025-07-12T07:46:51Z)
Fact-R1: Towards Explainable Video Misinformation Detection with Deep Reasoning [45.63234523183302]
既存の方法は、しばしば固いテンプレートに過度に適合し、偽りのコンテンツに対する深い推論を欠いている。 FakeVVは10万以上のビデオテキスト対と微粒で解釈可能なアノテーションからなる大規模ベンチマークである。また、深い推論と協調ルールに基づく強化学習を統合するフレームワークであるFact-R1を提案する。
論文参考訳（メタデータ） (2025-05-22T16:05:06Z)
UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities [53.76854299076118]
UniversalRAGは異種情報源からの知識を多様さと粒度で検索・統合するための新しいRAGフレームワークである。本稿では,最も適切なモダリティ固有コーパスを動的に識別し,その内部でターゲット検索を行うモダリティ対応ルーティング機構を提案する。複数のモダリティにまたがる8つのベンチマークでUniversalRAGを検証する。
論文参考訳（メタデータ） (2025-04-29T13:18:58Z)
Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。 RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文参考訳（メタデータ） (2025-04-17T16:46:11Z)
Improving Multilingual Retrieval-Augmented Language Models through Dialectic Reasoning Argumentations [65.11348389219887]
そこで,Dialectic-RAG(Dialectic-RAG, DRAG)を提案する。我々は、文脈内学習戦略と、より小さなモデルをインストラクションするための実演の構築の両方において、我々のフレームワークが与える影響を示す。
論文参考訳（メタデータ） (2025-04-07T06:55:15Z)
Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。 MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文参考訳（メタデータ） (2025-02-24T16:25:25Z)
Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation [2.549112678136113]
Retrieval-Augmented Generation (RAG) は、外部の動的情報を統合することで問題を緩和する。クロスモーダルアライメントと推論はMultimodal RAGに固有の課題をもたらし、従来の単調なRAGと区別する。この調査は、より有能で信頼性の高いAIシステムを開発するための基盤となる。
論文参考訳（メタデータ） (2025-02-12T22:33:41Z)
Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文参考訳（メタデータ） (2024-11-05T09:27:21Z)
CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation [68.81271028921647]
我々は,現実的なマルチターン対話環境におけるRAGシステム評価のためのベンチマークであるCORALを紹介する。コラルにはウィキペディアから自動的に派生した多様な情報検索会話が含まれている。対話型RAGの3つの中核的なタスク、すなわち、通過検索、応答生成、および引用ラベリングをサポートする。
論文参考訳（メタデータ） (2024-10-30T15:06:32Z)
LRQ-Fact: LLM-Generated Relevant Questions for Multimodal Fact-Checking [14.647261841209767]
マルチモーダルなファクトチェックのための完全自動フレームワークLRQ-Factを提案する。マルチモーダルコンテンツを探索するための総合的な質問や回答を生成する。そして、元のコンテンツと生成された質問と回答の両方を評価し、全体的な妥当性を評価する。
論文参考訳（メタデータ） (2024-10-06T20:33:22Z)
Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。 RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2024-05-31T14:23:49Z)
Read and Think: An Efficient Step-wise Multimodal Language Model for Document Understanding and Reasoning [0.0]
既存の文書理解モデルは、1つの単語やフレーズで直接答えを生成する傾向がある。文書画像の段階的問合せ対を生成するためにMLLM(Multi-modal Large Language Models)を用いる。次に、生成された高品質なデータを使用して、DocAssistantと呼ばれる、人間化された文書理解と推論モデルをトレーニングします。
論文参考訳（メタデータ） (2024-02-26T01:17:50Z)
Enhancing Textbook Question Answering Task with Large Language Models and Retrieval Augmented Generation [3.948068081583197]
本稿では,テキスト質問応答(TQA)における領域外シナリオを扱う手法を提案する。 LLMモデルLlama-2の微調整とRAGの導入により、我々のアーキテクチャはベースラインよりも優れ、検証セットでは4.12%、非ダイアグラム多重選択質問では9.84%の精度向上を実現している。
論文参考訳（メタデータ） (2024-02-05T11:58:56Z)
Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。 R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文参考訳（メタデータ） (2023-06-15T20:56:20Z)
MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。 MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10～20%精度が高いことがわかった。
論文参考訳（メタデータ） (2022-10-06T13:58:03Z)
End-to-End Multimodal Fact-Checking and Explanation Generation: A Challenging Dataset and Models [0.0]
エンドツーエンドのファクトチェックと説明生成を提案する。目標は、主張の真理性を評価することであり、関連する証拠を取得し、真理性ラベルを予測することである。この研究を支援するために15,601クレームからなる大規模データセットであるMochegを構築した。
論文参考訳（メタデータ） (2022-05-25T04:36:46Z)
Knowledgeable Dialogue Reading Comprehension on Key Turns [84.1784903043884]
MRC(Multi-choice Machine reading comprehension)は、ある項目と質問に対する候補オプションから正しい回答を選択するモデルである。本研究は,複数回対話を行う対話型MRCに焦点を当てている。それは2つの課題に悩まされ、答えの選択決定は、最近役に立つコモンセンスをサポートせずに行われ、マルチターンコンテキストは、かなりの無関係な情報を隠蔽する可能性がある。
論文参考訳（メタデータ） (2020-04-29T07:04:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。