論文の概要: UniCoRN: Unified Commented Retrieval Network with LMMs
- arxiv url: http://arxiv.org/abs/2502.08254v1
- Date: Wed, 12 Feb 2025 09:49:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:48:11.057125
- Title: UniCoRN: Unified Commented Retrieval Network with LMMs
- Title(参考訳): UniCoRN: LMMを使った統一コメント検索ネットワーク
- Authors: Maximilian Jaritz, Matthieu Guillaumin, Sabine Sternig, Loris Bazzani,
- Abstract要約: 合成多モーダル検索手法と生成言語アプローチを組み合わせた統一コメント検索ネットワークUniCoRNを紹介する。
合成マルチモーダル検索では+4.5%のリコールが,CoRでは+14.9%のMETEOR/+18.4%のBEMがRAGよりも改善された。
- 参考スコア(独自算出の注目度): 5.622291796324221
- License:
- Abstract: Multimodal retrieval methods have limitations in handling complex, compositional queries that require reasoning about the visual content of both the query and the retrieved entities. On the other hand, Large Multimodal Models (LMMs) can answer with language to more complex visual questions, but without the inherent ability to retrieve relevant entities to support their answers. We aim to address these limitations with UniCoRN, a Unified Commented Retrieval Network that combines the strengths of composed multimodal retrieval methods and generative language approaches, going beyond Retrieval-Augmented Generation (RAG). We introduce an entity adapter module to inject the retrieved multimodal entities back into the LMM, so it can attend to them while generating answers and comments. By keeping the base LMM frozen, UniCoRN preserves its original capabilities while being able to perform both retrieval and text generation tasks under a single integrated framework. To assess these new abilities, we introduce the Commented Retrieval task (CoR) and a corresponding dataset, with the goal of retrieving an image that accurately answers a given question and generate an additional textual response that provides further clarification and details about the visual information. We demonstrate the effectiveness of UniCoRN on several datasets showing improvements of +4.5% recall over the state of the art for composed multimodal retrieval and of +14.9% METEOR / +18.4% BEM over RAG for commenting in CoR.
- Abstract(参考訳): マルチモーダル検索手法は、クエリと検索されたエンティティの両方の視覚的内容の推論を必要とする複雑な構成的クエリの処理に制限がある。
一方、LMM(Large Multimodal Models)は、より複雑な視覚的質問に対して言語で答えることができるが、その答えをサポートするために関連エンティティを検索する固有の能力は持たない。
この制限をUniCoRN(Uniified Commented Retrieval Network, 統一コメント検索ネットワーク)で解決することを目的としている。
検索したマルチモーダルなエンティティを LMM に注入するエンティティアダプタモジュールを導入し,回答とコメントを生成しながら,それらに参加することができる。
ベースとなるLMMを凍結し続けることで、UniCoRNは元の能力を保ちつつ、単一の統合フレームワークで検索タスクとテキスト生成タスクを実行できる。
これらの新たな能力を評価するために、コメント検索タスク(CoR)とそれに対応するデータセットを導入し、与えられた質問に正確に答えるイメージを検索し、視覚情報に関するさらなる明確化と詳細を提供する追加のテキスト応答を生成する。
コンストラクトマルチモーダル検索では,4.5%のリコール率,CoRでのコメントでは+14.9%のMETEOR/+18.4%のBEMで,UniCoRNの有効性を示す。
関連論文リスト
- mR$^2$AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA [78.45521005703958]
マルチモーダル検索拡張生成(mRAG)はMLLMに包括的で最新の知識を提供するために自然に導入されている。
我々は、適応的検索と有用な情報ローカライゼーションを実現する textbfRetrieval-textbfReftextbfAugmented textbfGeneration (mR$2$AG) という新しいフレームワークを提案する。
mR$2$AG は INFOSEEK と Encyclopedic-VQA の最先端MLLM を著しく上回る
論文 参考訳(メタデータ) (2024-11-22T16:15:50Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - Enhancing Retrieval and Managing Retrieval: A Four-Module Synergy for Improved Quality and Efficiency in RAG Systems [14.62114319247837]
Retrieval-augmented Generation (RAG)技術は、大規模言語モデル(LLM)のコンテキスト内学習機能を利用して、より正確で関連する応答を生成する。
重要なコンポーネントであるQuery Rewriterモジュールは、検索フレンドリーなクエリを生成することで知識検索を強化する。
これら4つのRAGモジュールは、RAGシステムの応答品質と効率を相乗的に改善する。
論文 参考訳(メタデータ) (2024-07-15T12:35:00Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - SuRe: Summarizing Retrievals using Answer Candidates for Open-domain QA of LLMs [85.54906813106683]
大規模言語モデル(LLM)を用いたオープンドメイン質問応答(ODQA)の簡易かつ効果的なフレームワークを提案する。
SuRe は LLM が与えられた質問に対するより正確な回答を予測するのに役立つ。
様々なODQAベンチマークの実験結果はSuReの優位性を示し、標準的なプロンプトアプローチよりも4.6%、F1スコアが4.0%向上した。
論文 参考訳(メタデータ) (2024-04-17T01:15:54Z) - Generating Multi-Aspect Queries for Conversational Search [6.974395116689502]
同じ検索モデルでは,nDCG@3で1回以上のリライトクエリが85%向上することを示す。
本稿ではMQ4CSと呼ばれるマルチアスペクトクエリ生成・検索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-28T10:40:22Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Enhancing Multi-modal and Multi-hop Question Answering via Structured
Knowledge and Unified Retrieval-Generation [33.56304858796142]
マルチモーダルなマルチホップ質問応答は、異なるモーダルから複数の入力ソースを推論することで質問に答える。
既存の手法は、しばしば別々に証拠を検索し、その後言語モデルを使用して、得られた証拠に基づいて回答を生成する。
本稿では,これらの問題に対処するため,構造化知識と統一検索生成(RG)アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:12:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。