Fugu-MT 論文翻訳(概要): LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Foundation Models

論文の概要: LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Foundation Models

arxiv url: http://arxiv.org/abs/2409.11919v1
Date: Wed, 18 Sep 2024 12:32:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-19 17:50:39.169749
Title: LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Foundation Models
Title（参考訳）: LLMラッパー:視覚言語基礎モデルのブラックボックスセマンティックアウェア適応
Authors: Amaia Cardiel, Eloi Zablocki, Oriane Siméoni, Elias Ramzi, Matthieu Cord,
Abstract要約: 視覚言語モデル(VLM)は、多くのタスクにおいて印象的なパフォーマンスを示しているが、そのゼロショット能力は限られている。微調整のVLMには、ホワイトボックスがモデルのアーキテクチャや重みにアクセスできるだけでなく、微調整の目的を設計するための専門知識を必要とするため、制限が伴う。大規模言語モデル (LLM) を利用して, ブラックボックス方式でVLMを適応する新しいアプローチ LLM-wrapper を提案する。提案手法は市販モデルの性能を大幅に向上させ,古典的な微調整と比較して競争力のある結果をもたらす。
参考スコア（独自算出の注目度）: 45.856469849910496
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Vision Language Models (VLMs) have shown impressive performances on numerous tasks but their zero-shot capabilities can be limited compared to dedicated or fine-tuned models. Yet, fine-tuning VLMs comes with limitations as it requires `white-box' access to the model's architecture and weights as well as expertise to design the fine-tuning objectives and optimize the hyper-parameters, which are specific to each VLM and downstream task. In this work, we propose LLM-wrapper, a novel approach to adapt VLMs in a `black-box' manner by leveraging large language models (LLMs) so as to reason on their outputs. We demonstrate the effectiveness of LLM-wrapper on Referring Expression Comprehension (REC), a challenging open-vocabulary task that requires spatial and semantic reasoning. Our approach significantly boosts the performance of off-the-shelf models, resulting in competitive results when compared with classic fine-tuning.
Abstract（参考訳）: 視覚言語モデル(VLM)は、多くのタスクにおいて印象的なパフォーマンスを示しているが、そのゼロショット能力は、専用または微調整されたモデルと比較して制限される可能性がある。しかし、微調整のVLMには、モデルのアーキテクチャと重みへの"ホワイトボックス"アクセスと、細調整の目的を設計し、各VLMおよび下流タスクに特有のハイパーパラメータを最適化する専門知識が必要とされるため、制限が伴う。本研究では,大規模な言語モデル(LLM)を活用して,VLMをブラックボックス方式で適応する新しい手法 LLM-wrapper を提案する。空間的・意味的推論を必要とするオープン語彙課題であるReferring Expression Comprehension (REC) に対する LLM-wrapper の有効性を示す。提案手法は市販モデルの性能を大幅に向上させ,古典的な微調整と比較して競争力のある結果をもたらす。

関連論文リスト

Pre-Trained Vision-Language Model Selection and Reuse for Downstream Tasks [48.67303250592189]
本稿では、モデルラベル学習(MLL)と呼ばれる、下流タスクのためのVLMの選択と再利用のための新しいパラダイムを提案する。モデルラベリングプロセスは目標タスクに依存しないため,提案手法は計算効率が高く,成長可能である。
論文参考訳（メタデータ） (2025-01-30T11:10:46Z)
HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding [91.0552157725366]
本稿では,HoVLEという新しい高性能モノリシックVLMを提案する。視覚的入力とテキスト入力を共有空間に変換し、LLMはテキストと同じ方法で画像を処理できる。実験の結果,HoVLEは様々なベンチマークにおいて,主要な構成モデルに近い性能が得られることがわかった。
論文参考訳（メタデータ） (2024-12-20T18:59:59Z)
OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。 OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文参考訳（メタデータ） (2024-12-12T18:55:18Z)
Matryoshka: Learning to Drive Black-Box LLMs with LLMs [31.501244808646]
Matryoshikaは軽量のホワイトボックス大型言語モデルコントローラである。複雑なタスクを一連の中間出力に分解することで、大規模なブラックボックスLCMジェネレータを誘導する。
論文参考訳（メタデータ） (2024-10-28T05:28:51Z)
GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models [44.82179903133343]
大型言語モデル(LLM)は視覚言語モデル(VLM)の暗黙の役割を果たす我々のGLOVメタプロンプトは、下流のタスク記述でLLMをメタプロンプトし、適切なVLMプロンプトに問い合わせる。 VLMの2つのファミリーを用いて16種類の多様なデータセット上でGLOVを評価した。
論文参考訳（メタデータ） (2024-10-08T15:55:40Z)
SoupLM: Model Integration in Large Language and Multi-Modal Models [51.12227693121004]
大規模言語モデル(LLM)の訓練には、かなりの計算資源が必要である。既存の公開LLMは通常、さまざまなタスクにまたがる、多種多様なプライベートにキュレートされたデータセットで事前トレーニングされる。
論文参考訳（メタデータ） (2024-07-11T05:38:15Z)
Parrot: Efficient Serving of LLM-based Applications with Semantic Variable [11.894203842968745]
Parrotは、LLMベースのアプリケーションのエンドツーエンドエクスペリエンスに焦点を当てたサービスシステムである。 Semantic Variableはリクエストのプロンプトで入出力変数に注釈を付け、複数のLLMリクエストを接続する際にデータパイプラインを生成する。
論文参考訳（メタデータ） (2024-05-30T09:46:36Z)
Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。 Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文参考訳（メタデータ） (2023-12-29T01:56:17Z)
CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文参考訳（メタデータ） (2023-12-04T05:13:59Z)
InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。 InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-11-12T09:58:16Z)
Language Models as Black-Box Optimizers for Vision-Language Models [62.80817942316398]
Webスケールデータセットで事前トレーニングされた視覚言語モデル(VLM)は、最小限のデータで微調整された場合、下流タスクに顕著な機能を示す。我々は,自然言語のプロンプトを通じてVLMを最適化するためのブラックボックスアプローチを開発することを目指している。
論文参考訳（メタデータ） (2023-09-12T04:03:41Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。