論文の概要: LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Models for Referring Expression Comprehension
- arxiv url: http://arxiv.org/abs/2409.11919v2
- Date: Tue, 15 Oct 2024 14:52:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 19:26:16.175333
- Title: LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Models for Referring Expression Comprehension
- Title(参考訳): LLMラッパー:表現理解参照のための視覚言語モデルのブラックボックス意味認識適応
- Authors: Amaia Cardiel, Eloi Zablocki, Elias Ramzi, Oriane Siméoni, Matthieu Cord,
- Abstract要約: 大規模言語モデル(LLM)を用いた参照表現(REC)タスクのための視覚言語モデル(VLM)の「ブラックボックス」適応法を提案する。
LLMはLLMの推論能力を活かし、軽微調整により改良され、参照表現にマッチする最も関連性の高いバウンディングボックスを選択する。
当社のアプローチでは,内部動作へのアクセスを必要とせずに,クローズドソースモデルの適応を可能にするという,いくつかの利点がある。
- 参考スコア(独自算出の注目度): 45.856469849910496
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision Language Models (VLMs) have demonstrated remarkable capabilities in various open-vocabulary tasks, yet their zero-shot performance lags behind task-specific finetuned models, particularly in complex tasks like Referring Expression Comprehension (REC). Fine-tuning usually requires 'white-box' access to the model's architecture and weights, which is not always feasible due to proprietary or privacy concerns. In this work, we propose LLM-wrapper, a method for 'black-box' adaptation of VLMs for the REC task using Large Language Models (LLMs). LLM-wrapper capitalizes on the reasoning abilities of LLMs, improved with a light fine-tuning, to select the most relevant bounding box matching the referring expression, from candidates generated by a zero-shot black-box VLM. Our approach offers several advantages: it enables the adaptation of closed-source models without needing access to their internal workings, it is versatile as it works with any VLM, it transfers to new VLMs, and it allows for the adaptation of an ensemble of VLMs. We evaluate LLM-wrapper on multiple datasets using different VLMs and LLMs, demonstrating significant performance improvements and highlighting the versatility of our method. While LLM-wrapper is not meant to directly compete with standard white-box fine-tuning, it offers a practical and effective alternative for black-box VLM adaptation. The code will be open-sourced.
- Abstract(参考訳): 視覚言語モデル(VLM)は、様々なオープン語彙タスクにおいて顕著な能力を示したが、特にReferring Expression Comprehension(REC)のような複雑なタスクでは、タスク固有の微調整モデルに遅れてゼロショットのパフォーマンスが遅れている。
ファインチューニングは通常、モデルのアーキテクチャと重みへの"ホワイトボックス"アクセスを必要とするが、プロプライエタリやプライバシの懸念のため、必ずしも実現不可能である。
本稿では,Large Language Models (LLMs) を用いたRECタスクに対する VLM の 'black-box' 適応法である LLM-wrapper を提案する。
LLM-ラッパーは、ゼロショットブラックボックスVLMによって生成される候補から、参照表現にマッチする最も関連性の高いバウンディングボックスを選択するために、軽微調整により改良されたLCMの推論能力に乗じる。
提案手法は,内部動作を必要とせずにクローズドソースモデルの適応が可能であり,任意のVLMで動作するため,新しいVLMへの変換が可能であり,VLMのアンサンブルの適応を可能にする。
異なるVLMとLLMを用いて複数のデータセット上でLLMラッパーを評価し,性能向上と本手法の汎用性を強調した。
LLM-ラッパーは標準的なホワイトボックスの微調整と直接競合するものではないが、ブラックボックスのVLM適応に対して実用的で効果的な代替手段を提供する。
コードはオープンソース化される。
関連論文リスト
- InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding [91.0552157725366]
本稿では,HoVLEという新しい高性能モノリシックVLMを提案する。
視覚的入力とテキスト入力を共有空間に変換し、LLMはテキストと同じ方法で画像を処理できる。
実験の結果,HoVLEは様々なベンチマークにおいて,主要な構成モデルに近い性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-20T18:59:59Z) - OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。
目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。
OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Matryoshka: Learning to Drive Black-Box LLMs with LLMs [31.501244808646]
Matryoshikaは軽量のホワイトボックス大型言語モデルコントローラである。
複雑なタスクを一連の中間出力に分解することで、大規模なブラックボックスLCMジェネレータを誘導する。
論文 参考訳(メタデータ) (2024-10-28T05:28:51Z) - GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models [44.82179903133343]
GLOVは、大型言語モデル(LLM)が視覚言語モデル(VLM)の暗黙エンコーダとして機能することを可能にする。
GLOVは、オブジェクト認識のためのデュアルエンコーダ(CLIP)とVLデコーダ(LlaVA)モデルに対して、最大15.0%と57.5%の性能向上を示す。
論文 参考訳(メタデータ) (2024-10-08T15:55:40Z) - Parrot: Efficient Serving of LLM-based Applications with Semantic Variable [11.894203842968745]
Parrotは、LLMベースのアプリケーションのエンドツーエンドエクスペリエンスに焦点を当てたサービスシステムである。
Semantic Variableはリクエストのプロンプトで入出力変数に注釈を付け、複数のLLMリクエストを接続する際にデータパイプラインを生成する。
論文 参考訳(メタデータ) (2024-05-30T09:46:36Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Language Models as Black-Box Optimizers for Vision-Language Models [62.80817942316398]
Webスケールデータセットで事前トレーニングされた視覚言語モデル(VLM)は、最小限のデータで微調整された場合、下流タスクに顕著な機能を示す。
我々は,自然言語のプロンプトを通じてVLMを最適化するためのブラックボックスアプローチを開発することを目指している。
論文 参考訳(メタデータ) (2023-09-12T04:03:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。