論文の概要: Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks
- arxiv url: http://arxiv.org/abs/2206.08916v1
- Date: Fri, 17 Jun 2022 17:53:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 15:05:45.301033
- Title: Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks
- Title(参考訳): Unified-IO: ビジョン、言語、マルチモーダルタスクのための統一モデル
- Authors: Jiasen Lu, Christopher Clark, Rowan Zellers, Roozbeh Mottaghi,
Aniruddha Kembhavi
- Abstract要約: Unified-IOは、古典的なコンピュータビジョンタスクにまたがるさまざまなAIタスクを実行するモデルである。
我々は、サポート対象の入力と出力を個別の語彙トークン列に均質化することで、この統一を実現する。
Unified-IOはGRITベンチマークで7つのタスクすべてを実行することができる最初のモデルである。
- 参考スコア(独自算出の注目度): 39.12025963907317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Unified-IO, a model that performs a large variety of AI tasks
spanning classical computer vision tasks, including pose estimation, object
detection, depth estimation and image generation, vision-and-language tasks
such as region captioning and referring expression comprehension, to natural
language processing tasks such as question answering and paraphrasing.
Developing a single unified model for such a large variety of tasks poses
unique challenges due to the heterogeneous inputs and outputs pertaining to
each task, including RGB images, per-pixel maps, binary masks, bounding boxes,
and language. We achieve this unification by homogenizing every supported input
and output into a sequence of discrete vocabulary tokens. This common
representation across all tasks allows us to train a single transformer-based
architecture, jointly on over 80 diverse datasets in the vision and language
fields. Unified-IO is the first model capable of performing all 7 tasks on the
GRIT benchmark and produces strong results across 16 diverse benchmarks like
NYUv2-Depth, ImageNet, VQA2.0, OK-VQA, Swig, VizWizGround, BoolQ, and SciTail,
with no task or benchmark specific fine-tuning. Demos for Unified-IO are
available at https://unified-io.allenai.org.
- Abstract(参考訳): 質問応答やパラフレーズ処理などの自然言語処理タスクに対して,ポーズ推定,オブジェクト検出,深度推定と画像生成,領域キャプションや参照表現理解などの視覚・言語タスクなど,従来のコンピュータビジョンタスクにまたがるさまざまなAIタスクを実行するモデルであるUnified-IOを提案する。
このような多種多様なタスクのための単一の統一モデルの開発は、RGB画像、ピクセルごとのマップ、バイナリマスク、バウンディングボックス、言語など、各タスクに関する不均一な入力と出力のために、ユニークな課題を引き起こす。
我々は、サポート対象の入力と出力を個別の語彙トークン列に均質化することで、この統一を実現する。
この共通表現により、ビジョンと言語分野における80以上の多様なデータセットを共同で、単一のトランスフォーマーベースのアーキテクチャをトレーニングすることができます。
Unified-IOはGRITベンチマークで7つのタスクすべてを実行することができる最初のモデルであり、NYUv2-Depth、ImageNet、VQA2.0、OK-VQA、Swig、VizWizGround、BoolQ、SciTailといった16の多様なベンチマークに対して、タスクやベンチマーク固有の微調整なしで強力な結果を生成する。
Unified-IOのデモはhttps://unified-io.allenai.orgで公開されている。
関連論文リスト
- GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。
GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文 参考訳(メタデータ) (2024-03-14T13:47:41Z) - VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文 参考訳(メタデータ) (2023-05-25T14:39:47Z) - A Unified Sequence Interface for Vision Tasks [87.328893553186]
計算機ビジョンタスクの多種多様な集合は、共有画素対シーケンスインタフェースで定式化すれば統一可能であることを示す。
オブジェクト検出、インスタンスのセグメンテーション、キーポイント検出、イメージキャプションの4つのタスクにフォーカスする。
我々は、タスク固有のカスタマイズなしで、単一のモデルアーキテクチャと損失関数でニューラルネットワークをトレーニングできることを示します。
論文 参考訳(メタデータ) (2022-06-15T17:08:53Z) - Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular
Vision-Language Pre-training [120.91411454661741]
視覚言語認識と生成を容易にするための訓練済みユニバーサル・デコーダネットワーク(Uni-EDEN)を提案する。
Uni-EDENは2ストリームトランスフォーマーベースの構造で、オブジェクトと文エンコーダの3つのモジュールで構成され、各モダリティの表現を別々に学習する。
論文 参考訳(メタデータ) (2022-01-11T16:15:07Z) - Unifying Vision-and-Language Tasks via Text Generation [81.3910771082967]
一つのアーキテクチャで異なるタスクを学習する統合フレームワークを提案する。
我々のモデルは、視覚的およびテキスト的入力に基づいて、テキストでラベルを生成することを学習する。
我々の生成的アプローチは、稀な答えを持つ質問に答える上で、より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-04T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。