論文の概要: Reverse Image Retrieval Cues Parametric Memory in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2405.18740v1
- Date: Wed, 29 May 2024 04:00:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 18:58:09.525367
- Title: Reverse Image Retrieval Cues Parametric Memory in Multimodal LLMs
- Title(参考訳): 多モードLDMにおける逆画像検索キュースパラメトリックメモリ
- Authors: Jialiang Xu, Michael Moor, Jure Leskovec,
- Abstract要約: 逆画像検索(Reverse Image Retrieval, RIR)拡張生成は, Web スケールの逆画像検索で MLLM を増強する単純な方法である。
RIRは、GPT-4Vの知識集約型視覚質問応答(VQA)を37-43%、GPT-4 Turboを25-27%、GPT-4oを18-20%改善する。
- 参考スコア(独自算出の注目度): 54.054334823194615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite impressive advances in recent multimodal large language models (MLLMs), state-of-the-art models such as from the GPT-4 suite still struggle with knowledge-intensive tasks. To address this, we consider Reverse Image Retrieval (RIR) augmented generation, a simple yet effective strategy to augment MLLMs with web-scale reverse image search results. RIR robustly improves knowledge-intensive visual question answering (VQA) of GPT-4V by 37-43%, GPT-4 Turbo by 25-27%, and GPT-4o by 18-20% in terms of open-ended VQA evaluation metrics. To our surprise, we discover that RIR helps the model to better access its own world knowledge. Concretely, our experiments suggest that RIR augmentation helps by providing further visual and textual cues without necessarily containing the direct answer to a query. In addition, we elucidate cases in which RIR can hurt performance and conduct a human evaluation. Finally, we find that the overall advantage of using RIR makes it difficult for an agent that can choose to use RIR to perform better than an approach where RIR is the default setting.
- Abstract(参考訳): 近年のMLLM(Multimodal large language model)の顕著な進歩にもかかわらず、GPT-4スイートのような最先端のモデルは、知識集約的なタスクに苦戦している。
これを解決するために、逆画像検索(Reverse Image Retrieval、RIR)拡張生成について検討する。
RIRは、GPT-4Vの知識集約型視覚質問応答(VQA)を37-43%、GPT-4 Turboを25-27%、GPT-4oを18-20%改善する。
驚いたことに、RIRはモデルが自身の世界知識によりよくアクセスするのに役立ちます。
具体的には、RIR拡張は、クエリへの直接応答を必ずしも含まない視覚的およびテキスト的手がかりを提供することによって有効であることを示す。
また,RIRがパフォーマンスを損なうようなケースを解明し,人的評価を行う。
最後に、RIRを使用することによる全体的なアドバンテージは、RIRをデフォルト設定であるアプローチよりも優れたパフォーマンスを実現するために、RIRを使用するエージェントを選択することが難しくなることに気付きます。
関連論文リスト
- An Intelligent Agentic System for Complex Image Restoration Problems [39.93819777300997]
AgenticIRは、イメージ処理に対する人間のアプローチを、知覚、スケジューリング、実行、反射、再スケジューリングの5つの重要な段階に従って模倣する。
我々は、テキスト生成を介して対話する大規模言語モデル(LLM)と視覚言語モデル(VLM)を用いて、IRモデルのツールボックスを操作する。
実験では、複雑なIRタスクを扱うAgenicIRの可能性を実証し、視覚処理における汎用知性を達成するための有望な道を示す。
論文 参考訳(メタデータ) (2024-10-23T12:11:26Z) - MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models [115.16022378880376]
MRAG-Benchというマルチモーダル検索拡張生成ベンチマークを導入する。
MRAG-Benchは16,130枚の画像と1,353個の人間による複数の質問からなる。
その結果,すべての大規模視覚言語モデル (LVLM) は,テキスト知識と比較して画像で拡張すると改善が見られた。
論文 参考訳(メタデータ) (2024-10-10T17:55:02Z) - ExACT: Teaching AI Agents to Explore with Reflective-MCTS and Exploratory Learning [78.42927884000673]
ExACTは、エージェントアプリケーションのためのo1のようなモデルを構築するために、テスト時間検索と自己学習を組み合わせるアプローチである。
リフレクティブモンテカルロ木探索(Reflective Monte Carlo Tree Search, R-MCTS)は、AIエージェントがその場で意思決定空間を探索する能力を高めるために設計された新しいテストタイムアルゴリズムである。
次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
論文 参考訳(メタデータ) (2024-10-02T21:42:35Z) - MrRank: Improving Question Answering Retrieval System through Multi-Result Ranking Model [4.173772253427094]
大型言語モデル(LLM)は幻覚や古い情報に悩まされることが多い。
これを解決するために、情報検索(IR)システムを使用して、最新の知識を持つLLMを拡張できる。
異種赤外線システムを組み合わせた学習からランクへのアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-09T11:00:01Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - The Chronicles of RAG: The Retriever, the Chunk and the Generator [0.0]
本稿では,ブラジルポルトガル語のRAGの実装,最適化,評価を行うための優れたプラクティスを提案する。
我々は最初のハリー・ポッターの本についての質問に答えるための様々な方法を探究する。
論文 参考訳(メタデータ) (2024-01-15T18:25:18Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Edge-guided Multi-domain RGB-to-TIR image Translation for Training
Vision Tasks with Challenging Labels [12.701191873813583]
注釈付き熱赤外(TIR)画像データセットの不足は、TIR画像ベースのディープラーニングネットワークを妨害し、RGBと同等の性能を持つ。
本稿では,エッジ保存に着目したマルチドメインRGBからTIRへの変換モデルを提案する。
我々は、終点誤差を平均56.5%改善した深部TIR画像に基づく光フロー推定と物体検出の教師あり学習を可能にし、最高の物体検出mAPは23.9%とした。
論文 参考訳(メタデータ) (2023-01-30T06:44:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。