論文の概要: LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Foundation Models
- arxiv url: http://arxiv.org/abs/2409.11919v1
- Date: Wed, 18 Sep 2024 12:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 17:50:39.169749
- Title: LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Foundation Models
- Title(参考訳): LLMラッパー:視覚言語基礎モデルのブラックボックスセマンティックアウェア適応
- Authors: Amaia Cardiel, Eloi Zablocki, Oriane Siméoni, Elias Ramzi, Matthieu Cord,
- Abstract要約: 視覚言語モデル(VLM)は、多くのタスクにおいて印象的なパフォーマンスを示しているが、そのゼロショット能力は限られている。
微調整のVLMには、ホワイトボックスがモデルのアーキテクチャや重みにアクセスできるだけでなく、微調整の目的を設計するための専門知識を必要とするため、制限が伴う。
大規模言語モデル (LLM) を利用して, ブラックボックス方式でVLMを適応する新しいアプローチ LLM-wrapper を提案する。
提案手法は市販モデルの性能を大幅に向上させ,古典的な微調整と比較して競争力のある結果をもたらす。
- 参考スコア(独自算出の注目度): 45.856469849910496
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision Language Models (VLMs) have shown impressive performances on numerous tasks but their zero-shot capabilities can be limited compared to dedicated or fine-tuned models. Yet, fine-tuning VLMs comes with limitations as it requires `white-box' access to the model's architecture and weights as well as expertise to design the fine-tuning objectives and optimize the hyper-parameters, which are specific to each VLM and downstream task. In this work, we propose LLM-wrapper, a novel approach to adapt VLMs in a `black-box' manner by leveraging large language models (LLMs) so as to reason on their outputs. We demonstrate the effectiveness of LLM-wrapper on Referring Expression Comprehension (REC), a challenging open-vocabulary task that requires spatial and semantic reasoning. Our approach significantly boosts the performance of off-the-shelf models, resulting in competitive results when compared with classic fine-tuning.
- Abstract(参考訳): 視覚言語モデル(VLM)は、多くのタスクにおいて印象的なパフォーマンスを示しているが、そのゼロショット能力は、専用または微調整されたモデルと比較して制限される可能性がある。
しかし、微調整のVLMには、モデルのアーキテクチャと重みへの"ホワイトボックス"アクセスと、細調整の目的を設計し、各VLMおよび下流タスクに特有のハイパーパラメータを最適化する専門知識が必要とされるため、制限が伴う。
本研究では,大規模な言語モデル(LLM)を活用して,VLMをブラックボックス方式で適応する新しい手法 LLM-wrapper を提案する。
空間的・意味的推論を必要とするオープン語彙課題であるReferring Expression Comprehension (REC) に対する LLM-wrapper の有効性を示す。
提案手法は市販モデルの性能を大幅に向上させ,古典的な微調整と比較して競争力のある結果をもたらす。
関連論文リスト
- Matryoshka: Learning to Drive Black-Box LLMs with LLMs [31.501244808646]
Matryoshikaは軽量のホワイトボックス大型言語モデルコントローラである。
複雑なタスクを一連の中間出力に分解することで、大規模なブラックボックスLCMジェネレータを誘導する。
論文 参考訳(メタデータ) (2024-10-28T05:28:51Z) - GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models [44.82179903133343]
大型言語モデル(LLM)は視覚言語モデル(VLM)の暗黙の役割を果たす
我々のGLOVメタプロンプトは、下流のタスク記述でLLMをメタプロンプトし、適切なVLMプロンプトに問い合わせる。
VLMの2つのファミリーを用いて16種類の多様なデータセット上でGLOVを評価した。
論文 参考訳(メタデータ) (2024-10-08T15:55:40Z) - SoupLM: Model Integration in Large Language and Multi-Modal Models [51.12227693121004]
大規模言語モデル(LLM)の訓練には、かなりの計算資源が必要である。
既存の公開LLMは通常、さまざまなタスクにまたがる、多種多様なプライベートにキュレートされたデータセットで事前トレーニングされる。
論文 参考訳(メタデータ) (2024-07-11T05:38:15Z) - Parrot: Efficient Serving of LLM-based Applications with Semantic Variable [11.894203842968745]
Parrotは、LLMベースのアプリケーションのエンドツーエンドエクスペリエンスに焦点を当てたサービスシステムである。
Semantic Variableはリクエストのプロンプトで入出力変数に注釈を付け、複数のLLMリクエストを接続する際にデータパイプラインを生成する。
論文 参考訳(メタデータ) (2024-05-30T09:46:36Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Language Models as Black-Box Optimizers for Vision-Language Models [62.80817942316398]
Webスケールデータセットで事前トレーニングされた視覚言語モデル(VLM)は、最小限のデータで微調整された場合、下流タスクに顕著な機能を示す。
我々は,自然言語のプロンプトを通じてVLMを最適化するためのブラックボックスアプローチを開発することを目指している。
論文 参考訳(メタデータ) (2023-09-12T04:03:41Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。