論文の概要: Vision-Language Intelligence: Tasks, Representation Learning, and Large
Models
- arxiv url: http://arxiv.org/abs/2203.01922v1
- Date: Thu, 3 Mar 2022 18:54:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 14:39:11.733294
- Title: Vision-Language Intelligence: Tasks, Representation Learning, and Large
Models
- Title(参考訳): 視覚言語知能:タスク,表現学習,大規模モデル
- Authors: Feng Li, Hao Zhang, Yi-Fan Zhang, Shilong Liu, Jian Guo, Lionel M. Ni,
PengChuan Zhang, Lei Zhang
- Abstract要約: 本稿では,時間的観点からの視覚言語知能の包括的調査について述べる。
本稿では,この分野での開発を,タスク固有手法,視覚言語事前学習法,大規模弱ラベルデータによって強化された大規模モデルという3つの期間にまとめる。
- 参考スコア(独自算出の注目度): 32.142076223602906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a comprehensive survey of vision-language (VL)
intelligence from the perspective of time. This survey is inspired by the
remarkable progress in both computer vision and natural language processing,
and recent trends shifting from single modality processing to multiple modality
comprehension. We summarize the development in this field into three time
periods, namely task-specific methods, vision-language pre-training (VLP)
methods, and larger models empowered by large-scale weakly-labeled data. We
first take some common VL tasks as examples to introduce the development of
task-specific methods. Then we focus on VLP methods and comprehensively review
key components of the model structures and training methods. After that, we
show how recent work utilizes large-scale raw image-text data to learn
language-aligned visual representations that generalize better on zero or few
shot learning tasks. Finally, we discuss some potential future trends towards
modality cooperation, unified representation, and knowledge incorporation. We
believe that this review will be of help for researchers and practitioners of
AI and ML, especially those interested in computer vision and natural language
processing.
- Abstract(参考訳): 本稿では,視覚言語(VL)インテリジェンスを時間的観点から包括的に調査する。
この調査は、コンピュータビジョンと自然言語処理の両方の顕著な進歩と、シングルモダリティ処理からマルチモダリティ理解へ移行する最近のトレンドに触発されたものである。
本稿では,この分野の開発をタスク固有法,視覚言語前訓練法(vlp)法,大規模弱ラベルデータによる大規模モデルという3つの期間にまとめる。
まず,タスク固有の手法の開発を紹介するために,一般的なVLタスクを例に挙げる。
次に、VLP手法に注目し、モデル構造とトレーニング手法の重要なコンポーネントを包括的にレビューする。
その後、最近の研究は、大規模な生画像テキストデータを用いて、ゼロまたは少ないショット学習タスクでより一般化された言語対応の視覚表現を学習していることを示す。
最後に,モダリティ連携,統一表現,知識導入に向けた今後の展望について論じる。
このレビューは、AIとMLの研究者や実践者、特にコンピュータビジョンや自然言語処理に関心のある人に役立つと信じています。
関連論文リスト
- VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks [48.67062958311173]
VL-GLUEは、自然言語理解のためのマルチタスクベンチマークである。
既存の大規模視覚言語モデルでは,このベンチマークは非常に難しい。
論文 参考訳(メタデータ) (2024-10-17T15:27:17Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Vision-and-Language Pretraining [19.903012955284698]
本稿では,現代V&L事前学習モデルの総合的な改訂について述べる。
特に、最先端のビジョン・アンド・ランゲージ事前学習モデルの要約とともに、事前学習アプローチの分類とデライン化を行う。
論文 参考訳(メタデータ) (2022-07-05T02:18:49Z) - Vision-and-Language Pretrained Models: A Survey [3.270244666687303]
本稿では,視覚言語事前学習モデルにおける主要な進歩について概説する。
まず、言語と視覚データエンコーディング法について論じ、次に主流のVLPM構造をコアコンテンツとして提示する。
論文 参考訳(メタデータ) (2022-04-15T07:33:06Z) - A Survey of Vision-Language Pre-Trained Models [41.323956143107644]
事前訓練されたモデルは近年、ブレークネックペースで進歩している。
ビジョン・アンド・ランゲージ学習の分野に事前学習を適応させ、下流タスクのパフォーマンスを向上させる方法は、マルチモーダル学習の焦点となる。
論文 参考訳(メタデータ) (2022-02-18T15:15:46Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。