論文の概要: LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Foundation Models
- arxiv url: http://arxiv.org/abs/2409.11919v1
- Date: Wed, 18 Sep 2024 12:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 17:50:39.169749
- Title: LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Foundation Models
- Title(参考訳): LLMラッパー:視覚言語基礎モデルのブラックボックスセマンティックアウェア適応
- Authors: Amaia Cardiel, Eloi Zablocki, Oriane Siméoni, Elias Ramzi, Matthieu Cord,
- Abstract要約: 視覚言語モデル(VLM)は、多くのタスクにおいて印象的なパフォーマンスを示しているが、そのゼロショット能力は限られている。
微調整のVLMには、ホワイトボックスがモデルのアーキテクチャや重みにアクセスできるだけでなく、微調整の目的を設計するための専門知識を必要とするため、制限が伴う。
大規模言語モデル (LLM) を利用して, ブラックボックス方式でVLMを適応する新しいアプローチ LLM-wrapper を提案する。
提案手法は市販モデルの性能を大幅に向上させ,古典的な微調整と比較して競争力のある結果をもたらす。
- 参考スコア(独自算出の注目度): 45.856469849910496
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision Language Models (VLMs) have shown impressive performances on numerous tasks but their zero-shot capabilities can be limited compared to dedicated or fine-tuned models. Yet, fine-tuning VLMs comes with limitations as it requires `white-box' access to the model's architecture and weights as well as expertise to design the fine-tuning objectives and optimize the hyper-parameters, which are specific to each VLM and downstream task. In this work, we propose LLM-wrapper, a novel approach to adapt VLMs in a `black-box' manner by leveraging large language models (LLMs) so as to reason on their outputs. We demonstrate the effectiveness of LLM-wrapper on Referring Expression Comprehension (REC), a challenging open-vocabulary task that requires spatial and semantic reasoning. Our approach significantly boosts the performance of off-the-shelf models, resulting in competitive results when compared with classic fine-tuning.
- Abstract(参考訳): 視覚言語モデル(VLM)は、多くのタスクにおいて印象的なパフォーマンスを示しているが、そのゼロショット能力は、専用または微調整されたモデルと比較して制限される可能性がある。
しかし、微調整のVLMには、モデルのアーキテクチャと重みへの"ホワイトボックス"アクセスと、細調整の目的を設計し、各VLMおよび下流タスクに特有のハイパーパラメータを最適化する専門知識が必要とされるため、制限が伴う。
本研究では,大規模な言語モデル(LLM)を活用して,VLMをブラックボックス方式で適応する新しい手法 LLM-wrapper を提案する。
空間的・意味的推論を必要とするオープン語彙課題であるReferring Expression Comprehension (REC) に対する LLM-wrapper の有効性を示す。
提案手法は市販モデルの性能を大幅に向上させ,古典的な微調整と比較して競争力のある結果をもたらす。
関連論文リスト
- InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding [91.0552157725366]
本稿では,HoVLEという新しい高性能モノリシックVLMを提案する。
視覚的入力とテキスト入力を共有空間に変換し、LLMはテキストと同じ方法で画像を処理できる。
実験の結果,HoVLEは様々なベンチマークにおいて,主要な構成モデルに近い性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-20T18:59:59Z) - OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。
目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。
OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Matryoshka: Learning to Drive Black-Box LLMs with LLMs [31.501244808646]
Matryoshikaは軽量のホワイトボックス大型言語モデルコントローラである。
複雑なタスクを一連の中間出力に分解することで、大規模なブラックボックスLCMジェネレータを誘導する。
論文 参考訳(メタデータ) (2024-10-28T05:28:51Z) - GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models [44.82179903133343]
GLOVは、大型言語モデル(LLM)が視覚言語モデル(VLM)の暗黙エンコーダとして機能することを可能にする。
GLOVは、オブジェクト認識のためのデュアルエンコーダ(CLIP)とVLデコーダ(LlaVA)モデルに対して、最大15.0%と57.5%の性能向上を示す。
論文 参考訳(メタデータ) (2024-10-08T15:55:40Z) - Parrot: Efficient Serving of LLM-based Applications with Semantic Variable [11.894203842968745]
Parrotは、LLMベースのアプリケーションのエンドツーエンドエクスペリエンスに焦点を当てたサービスシステムである。
Semantic Variableはリクエストのプロンプトで入出力変数に注釈を付け、複数のLLMリクエストを接続する際にデータパイプラインを生成する。
論文 参考訳(メタデータ) (2024-05-30T09:46:36Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Language Models as Black-Box Optimizers for Vision-Language Models [62.80817942316398]
Webスケールデータセットで事前トレーニングされた視覚言語モデル(VLM)は、最小限のデータで微調整された場合、下流タスクに顕著な機能を示す。
我々は,自然言語のプロンプトを通じてVLMを最適化するためのブラックボックスアプローチを開発することを目指している。
論文 参考訳(メタデータ) (2023-09-12T04:03:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。