論文の概要: RAG-Anything: All-in-One RAG Framework
- arxiv url: http://arxiv.org/abs/2510.12323v1
- Date: Tue, 14 Oct 2025 09:25:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.268395
- Title: RAG-Anything: All-in-One RAG Framework
- Title(参考訳): RAG-Anything:オールインワンのRAGフレームワーク
- Authors: Zirui Guo, Xubin Ren, Lingrui Xu, Jiahao Zhang, Chao Huang,
- Abstract要約: RAG-Anythingは,すべてのモダリティにまたがる包括的知識検索を可能にする統一的なフレームワークである。
本手法は, 孤立データ型ではなく, 相互接続された知識エンティティとして, マルチモーダルコンテンツを再認識する。
- 参考スコア(独自算出の注目度): 10.858282833070726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) has emerged as a fundamental paradigm for expanding Large Language Models beyond their static training limitations. However, a critical misalignment exists between current RAG capabilities and real-world information environments. Modern knowledge repositories are inherently multimodal, containing rich combinations of textual content, visual elements, structured tables, and mathematical expressions. Yet existing RAG frameworks are limited to textual content, creating fundamental gaps when processing multimodal documents. We present RAG-Anything, a unified framework that enables comprehensive knowledge retrieval across all modalities. Our approach reconceptualizes multimodal content as interconnected knowledge entities rather than isolated data types. The framework introduces dual-graph construction to capture both cross-modal relationships and textual semantics within a unified representation. We develop cross-modal hybrid retrieval that combines structural knowledge navigation with semantic matching. This enables effective reasoning over heterogeneous content where relevant evidence spans multiple modalities. RAG-Anything demonstrates superior performance on challenging multimodal benchmarks, achieving significant improvements over state-of-the-art methods. Performance gains become particularly pronounced on long documents where traditional approaches fail. Our framework establishes a new paradigm for multimodal knowledge access, eliminating the architectural fragmentation that constrains current systems. Our framework is open-sourced at: https://github.com/HKUDS/RAG-Anything.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、大規模言語モデルを静的トレーニングの制限を超えて拡張するための基本パラダイムとして登場した。
しかしながら、現在のRAG機能と現実世界の情報環境の間には、重大な不一致が存在する。
現代の知識リポジトリは本質的にマルチモーダルであり、テキストの内容、視覚要素、構造化テーブル、数学的表現の豊富な組み合わせを含んでいる。
しかし、既存のRAGフレームワークはテキストコンテンツに限られており、マルチモーダル文書を処理する際に基本的なギャップが生じる。
RAG-Anythingは,すべてのモダリティにまたがる包括的知識検索を可能にする統一的なフレームワークである。
本手法は, 孤立データ型ではなく, 相互接続された知識エンティティとして, マルチモーダルコンテンツを再認識する。
このフレームワークは、クロスモーダルな関係と、統一された表現内でのテキストの意味の両方をキャプチャするデュアルグラフ構造を導入している。
構造知識ナビゲーションとセマンティックマッチングを組み合わせたクロスモーダルハイブリッド検索を開発した。
これにより、関連する証拠が複数のモダリティにまたがる異種コンテンツに対する効果的な推論が可能になる。
RAG-Anythingは、挑戦的なマルチモーダルベンチマークにおいて優れた性能を示し、最先端の手法よりも大幅に改善されている。
従来のアプローチが失敗する長いドキュメントでは、パフォーマンスの向上が特に顕著になる。
我々のフレームワークは、現在のシステムを制約するアーキテクチャの断片化を排除し、マルチモーダルな知識アクセスのための新しいパラダイムを確立します。
私たちのフレームワークは、https://github.com/HKUDS/RAG-Anything.comでオープンソース化されています。
関連論文リスト
- UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - CMRAG: Co-modality-based visual document retrieval and question answering [21.016544020685668]
共同モダリティベースのRAG(RAG)フレームワークは、テキストや画像を利用してより正確な検索と生成を行うことができる。
我々のフレームワークは、複数のビジュアル文書質問応答(VDQA)ベンチマークにおいて、単一モダリティベースのRAGを一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-02T09:17:57Z) - mKG-RAG: Multimodal Knowledge Graph-Enhanced RAG for Visual Question Answering [29.5761347590239]
Retrieval-Augmented Generation (RAG) はマルチモーダル大言語モデル(MLLM)の内部知識を拡張するために提案されている。
本稿では,知識集約型VQAタスクのためのマルチモーダルKGに基づく,新しいマルチモーダル知識拡張生成フレームワーク(mKG-RAG)を提案する。
論文 参考訳(メタデータ) (2025-08-07T12:22:50Z) - MHier-RAG: Multi-Modal RAG for Visual-Rich Document Question-Answering via Hierarchical and Multi-Granularity Reasoning [5.55667293255701]
マルチモーダルな長文文書問合せタスクは、複数のページに分散したマルチモーダルなエビデンスを特定し、統合することを目的としている。
既存の手法はLVLM(Large Vision-Language Model)とRAG(Retrieval-Augmented Generation)に分類できる。
MHier-RAGと呼ばれる新しいマルチモーダルRAGモデルが提案され、テキスト情報と視覚情報の両方を長距離ページにわたって活用した。
論文 参考訳(メタデータ) (2025-08-01T12:22:53Z) - MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs [6.165053219836395]
本稿では,シーングラフを通して視覚コンテンツを洗練し,マルチモーダルな知識グラフを構築するMMGraphRAGを提案する。
スペクトルクラスタリングを用いてクロスモーダルなエンティティリンクを実現し、推論経路に沿ってコンテキストを取得して生成プロセスを導く。
実験結果から,MMGraphRAGはDocBenchとMMLongBenchのデータセット上で最先端の性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-07-28T13:16:23Z) - UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities [53.76854299076118]
UniversalRAGは異種情報源からの知識を多様さと粒度で検索・統合するための新しいRAGフレームワークである。
本稿では,最も適切なモダリティ固有コーパスを動的に識別し,その内部でターゲット検索を行うモダリティ対応ルーティング機構を提案する。
マルチモーダル性にまたがる8つのベンチマークでUniversalRAGを検証する。
論文 参考訳(メタデータ) (2025-04-29T13:18:58Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。