論文の概要: Instruction-Grounded Visual Projectors for Continual Learning of Generative Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.00260v1
- Date: Fri, 01 Aug 2025 02:08:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.710096
- Title: Instruction-Grounded Visual Projectors for Continual Learning of Generative Vision-Language Models
- Title(参考訳): 生成型視覚言語モデルの連続学習のための指導型ビジュアルプロジェクタ
- Authors: Hyundong Jin, Hyung Jin Chang, Eunwoo Kim,
- Abstract要約: 継続学習により、事前学習された視覚言語モデルは、以前のタスクからのデータを再学習することなく、新しいタスクからの知識を組み込むことができる。
近年,視覚プロジェクタを更新して視覚情報を新しいタスクに翻訳し,学習済みの視覚エンコーダを大規模言語モデルに接続する手法が提案されている。
本稿では,言語モデルの命令に視覚情報を翻訳する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.57867636733388
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Continual learning enables pre-trained generative vision-language models (VLMs) to incorporate knowledge from new tasks without retraining data from previous ones. Recent methods update a visual projector to translate visual information for new tasks, connecting pre-trained vision encoders with large language models. However, such adjustments may cause the models to prioritize visual inputs over language instructions, particularly learning tasks with repetitive types of textual instructions. To address the neglect of language instructions, we propose a novel framework that grounds the translation of visual information on instructions for language models. We introduce a mixture of visual projectors, each serving as a specialized visual-to-language translation expert based on the given instruction context to adapt to new tasks. To avoid using experts for irrelevant instruction contexts, we propose an expert recommendation strategy that reuses experts for tasks similar to those previously learned. Additionally, we introduce expert pruning to alleviate interference from the use of experts that cumulatively activated in previous tasks. Extensive experiments on diverse vision-language tasks demonstrate that our method outperforms existing continual learning approaches by generating instruction-following responses.
- Abstract(参考訳): 連続学習により、事前学習された生成視覚言語モデル(VLM)は、以前のタスクからのデータを再学習することなく、新しいタスクからの知識を組み込むことができる。
近年,視覚プロジェクタを更新して視覚情報を新しいタスクに翻訳し,学習済みの視覚エンコーダを大規模言語モデルに接続する手法が提案されている。
しかし、このような調整は、言語命令よりも視覚的な入力を優先させる可能性があり、特に反復的なテキスト命令を持つタスクを学習する。
本稿では,言語モデルの命令に対する視覚情報の翻訳を基盤とした,言語命令の無視に対処する新しいフレームワークを提案する。
我々は視覚プロジェクタを混合して導入し、それぞれが与えられた命令コンテキストに基づいて視覚から言語への翻訳の専門家として機能し、新しいタスクに適応する。
そこで本稿では,専門家を無関係な指導文脈に使用することを避けるために,専門家が以前学習したようなタスクを再利用する専門家推薦戦略を提案する。
また、従来のタスクで累積的に活性化されたエキスパートの使用による干渉を軽減するために、エキスパートプルーニングを導入する。
多様な視覚言語タスクに対する広範囲な実験により,提案手法は命令追従応答を生成することによって,既存の継続学習手法よりも優れていることが示された。
関連論文リスト
- Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction [22.31940101833938]
本稿では,エージェントに対するタスクガイダンスの強化について検討し,ゲームプレイ指導の理解を可能にした。
命令チューニングを決定変換器に組み込むためのマルチモーダルゲーム命令セットを構築する。
論文 参考訳(メタデータ) (2024-02-06T17:09:25Z) - CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update [69.59482029810198]
CLOVAは、推論、リフレクション、学習フェーズを含むフレームワーク内で動作するクローズドループビジュアルアシスタントである。
その結果,CLOVAは既存のツール利用手法を5%,知識タグ付けでは10%,画像編集では20%,視覚的質問応答や複数画像推論では5%に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-18T03:34:07Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - Accessible Instruction-Following Agent [0.0]
UVLNは、言語間視覚言語ナビゲーションのための新しい機械翻訳命令拡張フレームワークである。
我々は、標準VLNトレーニング目標を言語間エンコーダを介して多言語設定に拡張する。
Room Across Roomデータセットによる実験は、我々のアプローチの有効性を証明する。
論文 参考訳(メタデータ) (2023-05-08T23:57:26Z) - LINGO : Visually Debiasing Natural Language Instructions to Support Task
Diversity [11.44413929033824]
我々は,タスク駆動型ワークフローをサポートする新しいビジュアル分析インタフェースであるINGOを開発した。
我々は,1,616の言語課題のデータセットとその自然言語命令について,初心者と専門家の双方でユーザスタディを実施している。
両方のユーザグループに対して、lingOは事前訓練されたモデルのより難しいタスクの作成を促進する。
論文 参考訳(メタデータ) (2023-04-12T22:55:52Z) - Is BERT Blind? Exploring the Effect of Vision-and-Language Pretraining
on Visual Language Understanding [13.300199242824934]
視覚的・言語的な事前学習が、暗黙的な視覚的推論を含むテキストのみのタスクのパフォーマンスを向上させるかどうかを検討する。
本稿では,テキストエンコーダモデルの視覚的推論能力を探索するための視覚言語理解タスクを提案する。
また,テキストのみのタスクにCLIPなどのモデルを適用するための新しいゼロショット知識探索手法であるStroop Probingも提案する。
論文 参考訳(メタデータ) (2023-03-21T17:30:40Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。
本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:46:47Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - Unified Multimodal Pre-training and Prompt-based Tuning for
Vision-Language Understanding and Generation [86.26522210882699]
視覚言語理解と生成のための統一型マルチモーダル事前学習を提案する。
提案したUniVLは、理解タスクと生成タスクの両方を扱うことができる。
実験の結果,同じモデルを用いた場合,理解タスクと生成タスクとの間にはトレードオフがあることが判明した。
論文 参考訳(メタデータ) (2021-12-10T14:59:06Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [84.88106370842883]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
CLIP-Adapterは新たなボトルネックレイヤを採用して、新機能を学び、残留スタイルの機能ブレンディングを実行する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z) - AttViz: Online exploration of self-attention for transparent neural
language modeling [7.574392147428978]
本研究では,AttVizを提案する。AttVizは,個々のテキストトークンに関連付けられた自己注意値の探索を行うオンラインツールキットである。
既存のディープラーニングパイプラインが、AttVizに適したアウトプットを生成し、最小限の労力で、アテンションヘッドとアグリゲーションの新たな視覚化を提供する方法を示します。
論文 参考訳(メタデータ) (2020-05-12T12:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。