論文の概要: BRIT: Bidirectional Retrieval over Unified Image-Text Graph
- arxiv url: http://arxiv.org/abs/2505.18450v1
- Date: Sat, 24 May 2025 01:20:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.429954
- Title: BRIT: Bidirectional Retrieval over Unified Image-Text Graph
- Title(参考訳): BRIT: 統一画像テキストグラフによる双方向検索
- Authors: Ainulla Khan, Yamada Moyuru, Srinidhi Akella,
- Abstract要約: Retrieval-Augmented Generation (RAG) は、大規模言語モデルによって生成された応答の品質と関連性を高めるための有望な手法として登場した。
本稿では、文書内の様々なテキストイメージ接続をマルチモーダルグラフに統一する、新しいマルチモーダルRAGフレームワークBRITを提案する。
BRITは、画像からテキストへの経路とテキストへの経路の両方をグラフでトラバースすることにより、関連する画像やテキストを直接検索するだけでなく、関連するコンテンツも検索する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) has emerged as a promising technique to enhance the quality and relevance of responses generated by large language models. While recent advancements have mainly focused on improving RAG for text-based queries, RAG on multi-modal documents containing both texts and images has not been fully explored. Especially when fine-tuning does not work. This paper proposes BRIT, a novel multi-modal RAG framework that effectively unifies various text-image connections in the document into a multi-modal graph and retrieves the texts and images as a query-specific sub-graph. By traversing both image-to-text and text-to-image paths in the graph, BRIT retrieve not only directly query-relevant images and texts but also further relevant contents to answering complex cross-modal multi-hop questions. To evaluate the effectiveness of BRIT, we introduce MM-RAG test set specifically designed for multi-modal question answering tasks that require to understand the text-image relations. Our comprehensive experiments demonstrate the superiority of BRIT, highlighting its ability to handle cross-modal questions on the multi-modal documents.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、大規模言語モデルによって生成された応答の品質と関連性を高めるための有望な手法として登場した。
近年,テキストベースクエリのRAGの改善に重点を置いているが,テキストと画像の両方を含むマルチモーダル文書のRAGは十分に検討されていない。
特に微調整がうまくいかない場合。
本稿では、文書内の様々なテキストイメージ接続をマルチモーダルグラフに効果的に統一し、クエリ固有のサブグラフとしてテキストと画像を取得する、新しいマルチモーダルRAGフレームワークBRITを提案する。
BRITは、画像からテキストへの経路とテキストへの経路の両方をグラフでトラバースすることにより、関連する画像やテキストを直接クエリするだけでなく、複雑なマルチホップ質問に答えるための関連コンテンツも検索する。
BRITの有効性を評価するために,テキストと画像の関係を理解する必要のあるマルチモーダル質問応答タスク用に特別に設計されたMM-RAGテストセットを提案する。
我々はBRITの優位性を実証し,マルチモーダル文書におけるクロスモーダルな質問を処理できることを強調した。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Self-Supervised Cross-Modal Text-Image Time Series Retrieval in Remote Sensing [3.271701183630488]
リモートセンシング(RS)における自己教師型クロスモーダルテキスト画像時系列検索(text-ITSR)手法を提案する。
我々は、テキストITSRに焦点をあてて、一対のイメージ(バイテンポラル画像)に焦点をあてる。
提案手法は,1)バイテンポラル画像とテキスト文の意味内容を識別的特徴でモデル化するモダリティ固有エンコーダ,2)テキスト表現と画像表現を共有埋め込み空間で整列させるモダリティ固有プロジェクションヘッドからなる。
論文 参考訳(メタデータ) (2025-01-31T11:14:38Z) - MIRe: Enhancing Multimodal Queries Representation via Fusion-Free Modality Interaction for Multimodal Retrieval [26.585985828583304]
我々は、アライメント中にテキストの特徴を融合させることなく、モダリティインタラクションを実現する検索フレームワークMIReを紹介する。
提案手法では,テキスト駆動型信号を視覚表現に戻すことなく,テキストクエリを視覚埋め込みに対応させることができる。
実験により,我々の事前学習戦略はマルチモーダルクエリの理解を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-11-13T04:32:58Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation [21.052101309555464]
MDRG(Multimodal Dialogue Response Generation)は、テキスト、画像、あるいは両方で応答を生成する必要があるタスクである。
これまでの作業は、エンドツーエンドアプローチを採用するのではなく、モデルのイメージ入力と出力の両方の中間ステップとして、テキストのモダリティに依存していた。
本稿では、画像コンテンツに対するテキスト応答の関連性を高めるために、画像履歴情報を活用できるように、応答生成経路をブリッジするBI-MDRGを提案する。
論文 参考訳(メタデータ) (2024-08-12T05:22:42Z) - TIGeR: Unifying Text-to-Image Generation and Retrieval with Large Multimodal Models [96.72318842152148]
1つのLMM(Large Multimodal Model)を用いたテキスト・画像生成と検索のための統合フレームワークを提案する。
具体的には,LMMの本質的な識別能力について検討し,テキスト・画像検索のための効率的な生成的検索手法を提案する。
次に、テキストプロンプトに対する応答として、生成画像と検索画像の間で最適なマッチング画像を選択するための自律決定機構を提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。