Fugu-MT 論文翻訳(概要): Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning

論文の概要: Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning

arxiv url: http://arxiv.org/abs/2405.20834v1
Date: Fri, 31 May 2024 14:23:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-03 14:18:09.522744
Title: Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning
Title（参考訳）: RetrievalがReasoningと出会う: 高校の教科書の知識でさえマルチモーダルなReasoningに恩恵
Authors: Cheng Tan, Jingxuan Wei, Linzhuang Sun, Zhangyang Gao, Siyuan Li, Bihui Yu, Ruifeng Guo, Stan Z. Li,
Abstract要約: RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。 RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
参考スコア（独自算出の注目度）: 49.3242278912771
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models equipped with retrieval-augmented generation (RAG) represent a burgeoning field aimed at enhancing answering capabilities by leveraging external knowledge bases. Although the application of RAG with language-only models has been extensively explored, its adaptation into multimodal vision-language models remains nascent. Going beyond mere answer generation, the primary goal of multimodal RAG is to cultivate the models' ability to reason in response to relevant queries. To this end, we introduce a novel multimodal RAG framework named RMR (Retrieval Meets Reasoning). The RMR framework employs a bi-modal retrieval module to identify the most relevant question-answer pairs, which then serve as scaffolds for the multimodal reasoning process. This training-free approach not only encourages the model to engage deeply with the reasoning processes inherent in the retrieved content but also facilitates the generation of answers that are precise and richly interpretable. Surprisingly, utilizing solely the ScienceQA dataset, collected from elementary and high school science curricula, RMR significantly boosts the performance of various vision-language models across a spectrum of benchmark datasets, including A-OKVQA, MMBench, and SEED. These outcomes highlight the substantial potential of our multimodal retrieval and reasoning mechanism to improve the reasoning capabilities of vision-language models.
Abstract（参考訳）: 検索拡張世代(RAG)を備えた大規模言語モデルは,外部知識ベースを活用することで,回答能力の向上をめざした新興分野である。言語のみのモデルを用いたRAGの適用は広く検討されているが、マルチモーダル視覚言語モデルへの適応はいまだに始まったばかりである。単なる回答生成を超えて、マルチモーダルRAGの第一の目的は、関連するクエリに応答してモデルが推論する能力を育むことである。そこで我々はRMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークを提案する。 RMRフレームワークは、最も関連性の高い問合せペアを識別するために、バイモーダル検索モジュールを使用し、その後、マルチモーダル推論プロセスの足場として機能する。このトレーニングなしのアプローチは、モデルが検索されたコンテンツに固有の推論プロセスに深く関与するように促すだけでなく、正確でリッチに解釈可能な回答の生成を促進する。意外なことに、小・高校の理科カリキュラムから収集されたScienceQAデータセットのみを利用することで、RMRはA-OKVQA、MMBench、SEEDなどのベンチマークデータセットの範囲で様々なビジョン言語モデルの性能を大幅に向上させる。これらの結果は、視覚言語モデルの推論能力を向上させるためのマルチモーダル検索と推論機構のかなりの可能性を浮き彫りにしている。

関連論文リスト

MMRAG-RFT: Two-stage Reinforcement Fine-tuning for Explainable Multi-modal Retrieval-augmented Generation [31.90681057778075]
MMRAG(Multi-modal Retrieval-Augmented Generation)は、外部のマルチモーダル知識を統合することで、信頼性の高い生成を可能にする。既存のMMRAG法は、検索および応答生成の背後にある推論ロジックを明らかにすることができない。
論文参考訳（メタデータ） (2025-12-19T03:19:54Z)
Multimodal Iterative RAG for Knowledge-Intensive Visual Question Answering [8.830228556155673]
MI-RAGは、推論を利用して検索を強化し、知識合成を取り入れて理解を深めるフレームワークである。 Encyclopedic VQA、InfoSeek、OK-VQAといった挑戦的なベンチマークの実験は、MI-RAGが検索リコールと回答精度の両方を著しく改善していることを示している。
論文参考訳（メタデータ） (2025-08-31T11:14:54Z)
Chain of Questions: Guiding Multimodal Curiosity in Language Models [2.0180882714261568]
質問の連鎖 (Chain of Questions, CoQ) は好奇心を駆使した推論手法であり, マルチモーダル言語モデルにより, 周辺環境に関する対象とする質問を生成する。我々は、WebGPT、ScienceQA、AVSD、ScanQAデータセットを統合した新しいマルチモーダルベンチマークデータセットについて、我々のフレームワークを評価する。
論文参考訳（メタデータ） (2025-08-06T11:42:54Z)
Team of One: Cracking Complex Video QA with Model Synergy [24.75732964829523]
本稿では,複雑な実世界のシナリオにおける推論深度と堅牢性を高める,オープンエンドなビデオ質問応答のための新しいフレームワークを提案する。既存のビデオラージマルチモーダルモデル (Video-LMM) では、文脈的理解の制限、時間的モデリングの弱さ、曖昧さや構成的クエリへの一般化の低さがしばしば見られる。
論文参考訳（メタデータ） (2025-07-18T11:12:44Z)
Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger [51.01841635655944]
大規模視覚言語モデル(LVLM)の最近の進歩は、視覚質問応答(VQA)タスクのパフォーマンスを著しく改善している。既存の手法は、推論例による知識の不足や、抽出された知識からの不規則な応答など、依然として課題に直面している。我々は、Reasoning Context-enriched knowledge baseとTree Search re-level methodを構築し、LVLMを強化したRCTSと呼ばれるマルチモーダルRAGフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-09T14:00:57Z)
UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities [53.76854299076118]
UniversalRAGは異種情報源からの知識を多様さと粒度で検索・統合するための新しいRAGフレームワークである。本稿では,最も適切なモダリティ固有コーパスを動的に識別し,その内部でターゲット検索を行うモダリティ対応ルーティング機構を提案する。複数のモダリティにまたがる8つのベンチマークでUniversalRAGを検証する。
論文参考訳（メタデータ） (2025-04-29T13:18:58Z)
Improving Multilingual Retrieval-Augmented Language Models through Dialectic Reasoning Argumentations [65.11348389219887]
そこで,Dialectic-RAG(Dialectic-RAG, DRAG)を提案する。我々は、文脈内学習戦略と、より小さなモデルをインストラクションするための実演の構築の両方において、我々のフレームワークが与える影響を示す。
論文参考訳（メタデータ） (2025-04-07T06:55:15Z)
A Survey of Multimodal Retrieval-Augmented Generation [3.9616308910160445]
MRAG(Multimodal Retrieval-Augmented Generation)は、マルチモーダルデータ(テキスト、画像、ビデオ)を検索および生成プロセスに統合することにより、大規模言語モデル(LLM)を強化する。近年の研究では、MRAGは視覚とテキストの両方の理解を必要とするシナリオにおいて、従来の検索・拡張生成(RAG)よりも優れていることが示されている。
論文参考訳（メタデータ） (2025-03-26T02:43:09Z)
A Survey on Knowledge-Oriented Retrieval-Augmented Generation [45.65542434522205]
近年,RAG (Retrieval-Augmented Generation) が注目されている。 RAGは大規模検索システムと生成モデルを組み合わせる。動的外部知識を用いた生成モデルの強化など,RAGの重要な特徴について論じる。
論文参考訳（メタデータ） (2025-03-11T01:59:35Z)
Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文参考訳（メタデータ） (2024-12-19T13:25:39Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
A Comprehensive Survey of Retrieval-Augmented Generation (RAG): Evolution, Current Landscape and Future Directions [0.0]
RAGは、検索機構と生成言語モデルを組み合わせることで、出力の精度を高める。近年の研究では, 検索効率向上のための新しい手法が注目されている。 RAGモデルの堅牢性向上に焦点をあてた今後の研究方向性が提案されている。
論文参考訳（メタデータ） (2024-10-03T22:29:47Z)
From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。 CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文参考訳（メタデータ） (2024-09-19T02:51:54Z)
Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できるこの研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文参考訳（メタデータ） (2024-07-17T20:01:21Z)
IM-RAG: Multi-Round Retrieval-Augmented Generation Through Learning Inner Monologues [10.280113107290067]
IM-RAGアプローチは、多ラウンドRAGをサポートするために、情報検索システムとLarge Language Models (LLM)を統合する。 IMプロセス全体が強化学習(Reinforcement Learning, RL)によって最適化され、プログレストラッカーが組み込まれ、中間段階の報酬が提供される。提案手法は, 赤外線モジュールの統合において高い柔軟性を提供しながら, 最先端(SOTA)性能を実現する。
論文参考訳（メタデータ） (2024-05-15T12:41:20Z)
Chain-of-Thought Prompt Distillation for Multimodal Named Entity Recognition and Multimodal Relation Extraction [8.169359626365619]
思考のテキストチェーン(CoT) -- 中間推論ステップのシーケンスを生成します。本稿では,大規模言語モデルからのコモンセンス推論能力を同化するための新しい条件付きプロンプト蒸留法を提案する。我々のアプローチは最先端の精度を達成し、解釈可能性、データ効率、ドメイン間の一般化に関する多くの利点を示す。
論文参考訳（メタデータ） (2023-06-25T04:33:56Z)
Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文参考訳（メタデータ） (2023-02-02T07:51:19Z)
Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。新たなマルチモーダル検索フレームワーク(MoRe)を提案する。 MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文参考訳（メタデータ） (2022-12-03T13:11:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。