Fugu-MT 論文翻訳(概要): UniRAG: Universal Retrieval Augmentation for Multi-Modal Large Language Models

論文の概要: UniRAG: Universal Retrieval Augmentation for Multi-Modal Large Language Models

arxiv url: http://arxiv.org/abs/2405.10311v2
Date: Sun, 20 Oct 2024 05:49:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.439091
Title: UniRAG: Universal Retrieval Augmentation for Multi-Modal Large Language Models
Title（参考訳）: UniRAG:マルチモーダル大規模言語モデルのためのユニバーサル検索拡張
Authors: Sahel Sharifymoghaddam, Shivani Upadhyay, Wenhu Chen, Jimmy Lin,
Abstract要約: そこで,UniRAGというプラグイン・アンド・プレイ技術を紹介した。一般のエンティティを用いたMSCOCOデータセットによる評価結果から,GPT-4oやGemini-Proといったプロプライエタリモデルも,UniIRモデルのようなMMレトリバーが取得した関連情報を用いて入力プロンプトを拡張した場合,生成品質を著しく向上させることがわかった。
参考スコア（独自算出の注目度）: 76.30799731147589
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, Multi-Modal (MM) Large Language Models (LLMs) have unlocked many complex use-cases that require MM understanding (e.g., image captioning or visual question answering) and MM generation (e.g., text-guided image generation or editing) capabilities. To further improve the output fidelity of MM-LLMs we introduce UniRAG, a plug-and-play technique that adds relevant retrieved information to prompts as few-shot examples during inference. Unlike the common belief that Retrieval Augmentation (RA) mainly improves generation or understanding of uncommon entities, our evaluation results on the MSCOCO dataset with common entities show that both proprietary models like GPT-4o and Gemini-Pro and smaller open-source models like LLaVA, LaVIT, and Emu2 significantly enhance their generation quality when their input prompts are augmented with relevant information retrieved by MM retrievers like UniIR models.
Abstract（参考訳）: 近年,Multi-Modal (MM) Large Language Models (LLM) は,MM理解(例えば,画像キャプションや視覚的質問応答)とMM生成(例えば,テキスト誘導画像生成や編集)機能を必要とする複雑なユースケースの多くをアンロックしている。 MM-LLMの出力忠実度をさらに向上するため,提案手法であるUniRAGを導入する。 Retrieval Augmentation(RA)は、主に一般的なエンティティの生成や理解を改善するという一般的な信念とは異なり、共通エンティティを用いたMSCOCOデータセットによる評価結果は、GPT-4oやGemini-Proのようなプロプライエタリモデルと、LLaVA、LaVIT、Emu2のようなより小さなオープンソースモデルの両方が、UniIRモデルのようなMMレトリバーによって取得された関連情報によって入力プロンプトが拡張されると、生成品質を著しく向上することを示している。

関連論文リスト

ROVI: A VLM-LLM Re-Captioned Dataset for Open-Vocabulary Instance-Grounded Text-to-Image Generation [23.118080583803266]
ROVIは,画像生成のための高品質な合成データセットである。私たちの重要なイノベーションは、リキャプション(recaptioning)と呼ばれる戦略です。実証的目的のために、ROVIで訓練されたテキスト・ツー・イメージモデルGLIGENは、例えば精度、迅速な忠実度、美的品質において最先端の代替品よりも著しく優れている。
論文参考訳（メタデータ） (2025-08-01T18:19:51Z)
GenRecal: Generation after Recalibration from Large to Small Vision-Language Models [63.27511432647797]
視覚言語モデル(VLM)は、GPT-4Vのようなクローズドソースシステムと同等の性能を達成するために、大きな言語モデル(LLM)を活用している。視覚言語モデル(VLM)の最近の進歩は、GPT-4Vのようなクローズドソースシステムと同等の性能を達成するために、大きな言語モデル(LLM)を活用している。
論文参考訳（メタデータ） (2025-06-18T17:59:49Z)
Visual-RAG: Benchmarking Text-to-Image Retrieval Augmented Generation for Visual Knowledge Intensive Queries [30.692007887121278]
Retrieval-augmented Generation (RAG)は、知識集約的な質問に対処するために、外部知識で大きな言語モデルを拡張する。 Visual-RAGは、視覚的に根ざした知識集約的な質問を対象とする質問回答ベンチマークである。我々は,5つのオープンソースと3つのプロプライエタリなMLLMを評価し,画像が拡張世代において強力な証拠となることを示す。
論文参考訳（メタデータ） (2025-02-23T16:23:50Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
Synthetic Multimodal Question Generation [60.33494376081317]
MMRAG(Multimodal Retrieval Augmented Generation)は,マルチモーダル文書に対する質問応答のための強力な手法である。マルチモーダル文書から直接質問と回答のペアを生成する合成データ生成フレームワークSMMQGを提案する。 SMMQGを用いて、ウィキペディア文書上の1024の質問のMMRAGデータセットを生成し、それを用いて最先端のモデルを評価する。
論文参考訳（メタデータ） (2024-07-02T12:57:42Z)
MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning [44.497776004372724]
MLLM(Multi-modal large language model)は、様々な視覚的理解タスクにおいて大きな進歩を遂げている。 MG-LLaVAは,多粒度視覚フローを組み込むことで,モデルの視覚処理能力を向上する革新的MLLMである。さらに, 物体認識能力を向上するため, オフライン検出器によって識別された境界ボックスから得られる物体レベルの特徴を取り入れた。
論文参考訳（メタデータ） (2024-06-25T17:55:11Z)
A Review of Multi-Modal Large Language and Vision Models [1.9685736810241874]
大規模言語モデル(LLM)が研究と応用の焦点として登場した。近年、LLMはマルチモーダル大言語モデル(MM-LLM)に拡張されている。本稿では,近年のMM-LLMとともに,マルチモーダル機能を有するLLMの現状を概観する。
論文参考訳（メタデータ） (2024-03-28T15:53:45Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
MoAI: Mixture of All Intelligence for Large Language and Vision Models [42.182009352159]
Mixture of All Intelligence (MoAI)は、命令調整型大規模言語および視覚モデル(LLVM)である。 MoAIは外部セグメンテーション、検出、SGG、OCRモデルの出力から得られる補助的な視覚情報を使用する。 MoAIは、多数のゼロショットビジョン言語(VL)タスクにおいて、オープンソースとクローズドソースのLLVMの両方を著しく上回っている。
論文参考訳（メタデータ） (2024-03-12T10:44:13Z)
CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文参考訳（メタデータ） (2024-02-21T08:21:12Z)
CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal Models with Multiple Image Inputs [48.269363759989915]
この研究は、第1、画像対画像マッチング、第2、複数画像対テキストマッチングという2つの側面に焦点を当てている。我々は, GPT-4V, Gemini, OpenFlamingo, MMICLを含む, オープンソースおよびクローズドソースの大規模モデルについて評価を行った。
論文参考訳（メタデータ） (2024-01-05T00:26:07Z)
VIGC: Visual Instruction Generation and Correction [47.477290387002284]
視覚言語タスクのための高品質なインストラクションチューニングデータの不足は依然として課題である。 LLaVAのような現在の主要なパラダイムは、データを生成するために言語のみのGPT-4に依存している。本稿では,マルチモーダルな大規模言語モデルによる命令調整データの生成を可能にするビジュアルインストラクション生成と補正フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-24T11:21:05Z)
MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。 MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10～20%精度が高いことがわかった。
論文参考訳（メタデータ） (2022-10-06T13:58:03Z)
Augmenting Interpretable Models with LLMs during Training [73.40079895413861]
本稿では,効率よく解釈可能なモデルを構築するための拡張解釈モデル (Aug-imodels) を提案する。 Aug-imodel は、フィッティング時に LLM を使用するが、推論中に使用せず、完全な透明性を実現する。自然言語処理におけるAug-imodelのインスタンス化について検討する: (i) Aug-GAM, (ii) Aug-Tree, (ii) LLM機能拡張による決定木の拡大。
論文参考訳（メタデータ） (2022-09-23T18:36:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。