論文の概要: A Study of Autoregressive Decoders for Multi-Tasking in Computer Vision
- arxiv url: http://arxiv.org/abs/2303.17376v1
- Date: Thu, 30 Mar 2023 13:42:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 13:19:01.853475
- Title: A Study of Autoregressive Decoders for Multi-Tasking in Computer Vision
- Title(参考訳): コンピュータビジョンにおけるマルチタスクのための自己回帰デコーダの検討
- Authors: Lucas Beyer, Bo Wan, Gagan Madan, Filip Pavetic, Andreas Steiner,
Alexander Kolesnikov, Andr\'e Susano Pinto, Emanuele Bugliarello, Xiao Wang,
Qihang Yu, Liang-Chieh Chen, Xiaohua Zhai
- Abstract要約: マルチモーダルコンピュータビジョンにおけるマルチタスク学習のための自動回帰デコーダについて詳しく検討する。
鍵となる発見は、凍結した事前訓練されたエンコーダの上で学んだ小さなデコーダが驚くほどうまく機能していることである。
これはデコーダに自然言語で事前訓練された視覚モデルと対話するように教えるものであると見なすことができる。
- 参考スコア(独自算出の注目度): 93.90545426665999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has been a recent explosion of computer vision models which perform
many tasks and are composed of an image encoder (usually a ViT) and an
autoregressive decoder (usually a Transformer). However, most of this work
simply presents one system and its results, leaving many questions regarding
design decisions and trade-offs of such systems unanswered. In this work, we
aim to provide such answers. We take a close look at autoregressive decoders
for multi-task learning in multimodal computer vision, including
classification, captioning, visual question answering, and optical character
recognition. Through extensive systematic experiments, we study the effects of
task and data mixture, training and regularization hyperparameters,
conditioning type and specificity, modality combination, and more. Importantly,
we compare these to well-tuned single-task baselines to highlight the cost
incurred by multi-tasking. A key finding is that a small decoder learned on top
of a frozen pretrained encoder works surprisingly well. We call this setup
locked-image tuning with decoder (LiT-decoder). It can be seen as teaching a
decoder to interact with a pretrained vision model via natural language.
- Abstract(参考訳): 多くのタスクを実行し、イメージエンコーダ(通常vit)と自己回帰デコーダ(通常トランスフォーマ)で構成されるコンピュータビジョンモデルが最近爆発している。
しかし、この作品のほとんどは単に一つのシステムとその結果を示し、そのようなシステムの設計決定とトレードオフに関する多くの疑問を残している。
本研究では,このような回答を提供することを目標としている。
マルチモーダルコンピュータビジョンにおけるマルチタスク学習のための自動回帰デコーダについて,分類,キャプション,視覚的質問応答,光学的文字認識などについて詳しく検討する。
本研究では,タスクとデータの混合,トレーニングと正規化ハイパーパラメータ,コンディショニングタイプと特異性,モダリティの組み合わせなどについて実験を行った。
重要なことは、これらをよく調整されたシングルタスクベースラインと比較し、マルチタスクによって生じるコストを強調することである。
鍵となる発見は、凍結したプリトレーニングエンコーダの上で学んだ小さなデコーダが驚くほどうまく機能していることだ。
私たちはこの設定をデコーダ(LiT-decoder)でロックイメージチューニングと呼ぶ。
デコーダに自然言語で事前訓練された視覚モデルと対話するように教えているように見える。
関連論文リスト
- Multimodal Autoregressive Pre-training of Large Vision Encoders [85.39154488397931]
本稿では,汎用視覚エンコーダのファミリーであるAIMV2について述べる。
エンコーダはマルチモーダル評価だけでなく,ローカライゼーションやグラウンド,分類といったビジョンベンチマークでも優れている。
論文 参考訳(メタデータ) (2024-11-21T18:31:25Z) - Task-Aware Encoder Control for Deep Video Compression [26.778793247958053]
本稿では,機械用ディープビデオ圧縮のための革新的なエンコーダコントローラを提案する。
モード予測とグループ・オブ・ピクチャーズ(GoP)選択モジュールを備える。
提案手法は符号化段階における制御を集中化し,様々なタスクの調整を可能にする。
論文 参考訳(メタデータ) (2024-04-07T07:42:04Z) - Zero-shot Prompt-based Video Encoder for Surgical Gesture Recognition [9.426097444566704]
手術ビデオにおけるジェスチャー認識のための訓練済み視覚テキストモデル(CLIP)を開発した。
これはテキストなどの広範囲な外部ビデオデータを利用することができるが、ラベルメタデータも利用でき、コントラスト的損失を弱めている。
実験の結果,プロンプトベースのビデオエンコーダは,外科的ジェスチャー認識タスクにおいて,標準的なエンコーダよりも優れていた。
論文 参考訳(メタデータ) (2024-03-28T19:10:54Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - Clover: Towards A Unified Video-Language Alignment and Fusion Model [154.1070559563592]
我々は,Corver,Correlated Video-Language Pre-Torning法を紹介する。
クロスモーダルな特徴アライメントと融合を、新しい3モーダルアライメント事前訓練タスクを通じて改善する。
Cloverは、複数のダウンストリームタスクに新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2022-07-16T09:38:52Z) - Auto-Encoder based Co-Training Multi-View Representation Learning [10.120166898507328]
自動エンコーダに基づくコトレーニング型マルチビュー学習(ACMVL)という新しいアルゴリズムを提案する。
アルゴリズムには2つの段階があり、第1は各ビューの自動エンコーダを訓練し、第2段階は教師付きネットワークを訓練する。
実験結果から,優れた潜在特徴表現を学習でき,各ビューの自動エンコーダは従来のオートエンコーダよりも強力な再構成能力を有することがわかった。
論文 参考訳(メタデータ) (2022-01-09T10:20:16Z) - Distilled Dual-Encoder Model for Vision-Language Understanding [50.42062182895373]
本稿では,視覚言語理解タスクのためのデュアルエンコーダモデルをトレーニングするための多モードアテンション蒸留フレームワークを提案する。
プレトレーニングと微調整の両方にクロスモーダルアテンション蒸留を適用することで,さらなる改良が期待できることを示す。
論文 参考訳(メタデータ) (2021-12-16T09:21:18Z) - Video Exploration via Video-Specific Autoencoders [60.256055890647595]
ヒト制御可能なビデオ探索を可能にするビデオ固有オートエンコーダを提案する。
特定のビデオの複数のフレームで訓練された単純なオートエンコーダは、さまざまなビデオ処理および編集タスクを実行できることを観察します。
論文 参考訳(メタデータ) (2021-03-31T17:56:13Z) - Human-Machine Collaborative Video Coding Through Cuboidal Partitioning [26.70051123157869]
本稿では,人間の視覚と,キュービドを用いたマシンビジョンアプリケーションの間に存在する共通性を活用することによって,映像符号化フレームワークを提案する。
ビデオフレーム上の矩形領域を推定する立方体は、計算的に効率的であり、コンパクトな表現とオブジェクト中心である。
ここでは、現在のフレームから立方体特徴記述子を抽出し、オブジェクト検出の形式で機械ビジョンタスクを達成するために使用される。
論文 参考訳(メタデータ) (2021-02-02T04:44:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。