論文の概要: Multimodal RAG Enhanced Visual Description
- arxiv url: http://arxiv.org/abs/2508.09170v1
- Date: Wed, 06 Aug 2025 19:04:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.574612
- Title: Multimodal RAG Enhanced Visual Description
- Title(参考訳): マルチモーダルRAGによる視覚記述
- Authors: Amit Kumar Jaiswal, Haiming Liu, Ingo Frommholz,
- Abstract要約: 事前訓練された大型マルチモーダルモデル(LMM)は、テキスト表現と視覚表現のミスアライメントによって特徴づけられるモダリティギャップに遭遇する。
本稿では,RAG(Retrieval-Augmented Generation)を利用した軽量な学習自由アプローチを提案する。
2つのベンチマークマルチモーダルデータセットの実験結果は、大幅な改善を示している。
- 参考スコア(独自算出の注目度): 3.2771631221674333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Textual descriptions for multimodal inputs entail recurrent refinement of queries to produce relevant output images. Despite efforts to address challenges such as scaling model size and data volume, the cost associated with pre-training and fine-tuning remains substantial. However, pre-trained large multimodal models (LMMs) encounter a modality gap, characterised by a misalignment between textual and visual representations within a common embedding space. Although fine-tuning can potentially mitigate this gap, it is typically expensive and impractical due to the requirement for extensive domain-driven data. To overcome this challenge, we propose a lightweight training-free approach utilising Retrieval-Augmented Generation (RAG) to extend across the modality using a linear mapping, which can be computed efficiently. During inference, this mapping is applied to images embedded by an LMM enabling retrieval of closest textual descriptions from the training set. These textual descriptions, in conjunction with an instruction, cater as an input prompt for the language model to generate new textual descriptions. In addition, we introduce an iterative technique for distilling the mapping by generating synthetic descriptions via the language model facilitating optimisation for standard utilised image description measures. Experimental results on two benchmark multimodal datasets demonstrate significant improvements.
- Abstract(参考訳): マルチモーダル入力のためのテキスト記述は、関連する出力画像を生成するために、クエリの繰り返し洗練された処理を必要とする。
モデルサイズやデータボリュームのスケーリングといった課題に対処する努力にもかかわらず、事前トレーニングや微調整に関連するコストは、依然として大きなものだ。
しかし、事前訓練された大型マルチモーダルモデル(LMM)は、共通の埋め込み空間内のテキスト表現と視覚表現のミスアライメントによって特徴づけられるモダリティギャップに遭遇する。
微調整は、このギャップを軽減する可能性があるが、広範囲なドメイン駆動データを必要とするため、一般的には高価で実用的ではない。
この課題を克服するために、線形写像を用いて、効率よく計算可能なモダリティを越えて拡張する、RAG(Retrieval-Augmented Generation)を利用した軽量なトレーニングフリーアプローチを提案する。
推論中、このマッピングは、トレーニングセットから最も近いテキスト記述の検索を可能にするLMMによって埋め込まれた画像に適用される。
これらのテキスト記述は、命令とともに、言語モデルが新しいテキスト記述を生成するための入力プロンプトとして機能する。
さらに,標準利用画像記述尺度の最適化を容易にする言語モデルを用いて,合成記述を生成することにより,マッピングを蒸留する反復的手法を提案する。
2つのベンチマークマルチモーダルデータセットの実験結果は、大幅な改善を示している。
関連論文リスト
- Weighted Multi-Prompt Learning with Description-free Large Language Model Distillation [1.3381749415517021]
大規模言語モデル(LLM)をプロンプトに活用する新たなアプローチが提案されている。
既存の方法は典型的には LLM からテキストベースの応答(つまり記述)を抽出し、プロンプトに組み込む。
記述を抽出し, LLM から直接知識を抽出する新たな手法として, 記述不要なマルチプロンプト学習(DeMul)を提案する。
論文 参考訳(メタデータ) (2025-07-09T07:55:25Z) - An analysis of vision-language models for fabric retrieval [4.311804611758908]
情報検索やレコメンデーションシステムといったアプリケーションには,クロスモーダル検索が不可欠である。
本稿では,ファブリックサンプルのゼロショットテキスト・ツー・イメージ検索におけるビジョン言語モデルの利用について検討する。
論文 参考訳(メタデータ) (2025-07-07T08:00:18Z) - Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Diffusion Augmented Retrieval: A Training-Free Approach to Interactive Text-to-Image Retrieval [7.439049772394586]
Diffusion Augmented Retrieval (DAR)は、複数の中間表現を生成するフレームワークである。
DARの結果は微調整されたI-TIRモデルと同等だが、チューニングオーバーヘッドは発生しない。
論文 参考訳(メタデータ) (2025-01-26T03:29:18Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - SwitchGPT: Adapting Large Language Models for Non-Text Outputs [28.656227306028743]
大規模言語モデル(LLM)は主にテキストベースのデータセットに基づいて訓練されている。
LLMは、テキスト出力による複雑な言語命令の理解と実行において、非常に優れた能力を示す。
テキストベースのLLMをマルチモーダルに進化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-14T11:38:23Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。