Fugu-MT 論文翻訳(概要): Instruction-ViT: Multi-Modal Prompts for Instruction Learning in ViT

論文の概要: Instruction-ViT: Multi-Modal Prompts for Instruction Learning in ViT

arxiv url: http://arxiv.org/abs/2305.00201v1
Date: Sat, 29 Apr 2023 08:59:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-02 16:29:36.304381
Title: Instruction-ViT: Multi-Modal Prompts for Instruction Learning in ViT
Title（参考訳）: インストラクション-ViT:ViTにおけるインストラクション学習のためのマルチモーダルプロンプト
Authors: Zhenxiang Xiao, Yuzhong Chen, Lu Zhang, Junjie Yao, Zihao Wu, Xiaowei Yu, Yi Pan, Lin Zhao, Chong Ma, Xinyu Liu, Wei Liu, Xiang Li, Yixuan Yuan, Dinggang Shen, Dajiang Zhu, Tianming Liu, Xi Jiang
Abstract要約: 本稿では、画像分類のための視覚変換器モデルに命令調律に基づく即時設計を適用することに焦点を当てる。鍵となる考え方は、カテゴリ情報に関連するマルチモーダルプロンプトを実装し、モデルの微調整を導くことである。いくつかの画像キャプションタスクの実験に基づいて、性能とドメイン適応性を改善した。
参考スコア（独自算出の注目度）: 58.70209492842953
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prompts have been proven to play a crucial role in large language models, and in recent years, vision models have also been using prompts to improve scalability for multiple downstream tasks. In this paper, we focus on adapting prompt design based on instruction tuning into a visual transformer model for image classification which we called Instruction-ViT. The key idea is to implement multi-modal prompts (text or image prompt) related to category information to guide the fine-tuning of the model. Based on the experiments of several image captionining tasks, the performance and domain adaptability were improved. Our work provided an innovative strategy to fuse multi-modal prompts with better performance and faster adaptability for visual classification models.
Abstract（参考訳）: プロンプトは大規模言語モデルにおいて重要な役割を果たすことが証明されており、近年では複数の下流タスクのスケーラビリティ向上のためにプロンプトも使用されている。本稿では、インストラクション-ViTと呼ばれる画像分類のための視覚変換器モデルに、命令チューニングに基づくプロンプト設計を適用することに焦点を当てる。キーとなるアイデアは、カテゴリ情報に関連するマルチモーダルプロンプト(テキストまたは画像プロンプト)を実装し、モデルの微調整を導くことである。いくつかの画像キャプションタスクの実験に基づいて、性能とドメイン適応性を改善した。我々の研究は、視覚分類モデルの性能と適応性を向上したマルチモーダルプロンプトを融合する革新的な戦略を提供した。

関連論文リスト

DA-VPT: Semantic-Guided Visual Prompt Tuning for Vision Transformers [13.964106147449051]
計測学習技術を利用して、プロンプトの分布が微調整性能にどのように影響するかを調べる。本稿では,プロンプトの分布を案内する新しいフレームワークであるDis Distribution Aware Visual Prompt Tuning (DA-VPT)を提案する。本手法は,画像パッチとクラストークン間で意味情報を共有するための効果的なブリッジとして,プロンプトが有効であることを示す。
論文参考訳（メタデータ） (2025-05-29T17:31:26Z)
Multi-Modal Adapter for Vision-Language Models [5.040884755454258]
CLIPのマルチモーダル適応手法であるMulti-Modal Adapterを提案する。テキストと画像の特徴を組み合わせたトレーニング可能なマルチヘッドアテンションレイヤを追加し、両方の追加適応を生成します。
論文参考訳（メタデータ） (2024-09-03T12:47:08Z)
Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文参考訳（メタデータ） (2024-04-17T09:39:07Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
Improving In-Context Learning in Diffusion Models with Visual Context-Modulated Prompts [83.03471704115786]
本研究では,改良型プロンプト拡散(iPromptDiff)を紹介する。 iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。拡散に基づく視覚基盤モデルにおいて,この視覚的文脈変調テキストガイダンスと標準制御ネット構造を組み込んだ場合,多種多様な学習課題における多目的性と堅牢性を示すことを示す。
論文参考訳（メタデータ） (2023-12-03T14:15:52Z)
MuDPT: Multi-modal Deep-symphysis Prompt Tuning for Large Pre-trained Vision-Language Models [12.397136690734865]
マルチモーダル・ディープ・サイコフィック・プロンプト・タニングと呼ばれる新しいアプローチを提案し,その手法を MuDPT と呼ぶ。 MuDPTは、モデルに依存しない変換ネットワークを学習し、深い階層的な双方向のプロンプト融合を可能にすることで、独立したマルチモーダル・プロンプトチューニングを拡張している。最先端の手法と比較すると, MuDPT は認識能力と一般化能力が向上し, マージンは明らかである。
論文参考訳（メタデータ） (2023-06-20T09:15:52Z)
GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文参考訳（メタデータ） (2023-06-01T14:02:45Z)
Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文参考訳（メタデータ） (2023-03-30T06:02:40Z)
Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文参考訳（メタデータ） (2022-10-13T17:50:24Z)
Visual Prompt Tuning for Generative Transfer Learning [26.895321693202284]
生成的知識伝達による視覚変換器の学習法を提案する。我々は,映像を自己回帰的あるいは非自己回帰的変換器への視覚トークンのシーケンスとして表現する最先端の生成的視覚変換器を基盤とする。新しい領域に適応するために、画像トークンシーケンスへのプロンプトと呼ばれる学習可能なトークンを優先するプロンプトチューニングを用いる。
論文参考訳（メタデータ） (2022-10-03T14:56:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。