論文の概要: Crossing the Format Boundary of Text and Boxes: Towards Unified
Vision-Language Modeling
- arxiv url: http://arxiv.org/abs/2111.12085v1
- Date: Tue, 23 Nov 2021 18:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 15:21:21.136915
- Title: Crossing the Format Boundary of Text and Boxes: Towards Unified
Vision-Language Modeling
- Title(参考訳): テキストとボックスのフォーマット境界を越える:統一視覚言語モデリングに向けて
- Authors: Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Faisal Ahmed,
Zicheng Liu, Yumao Lu, Lijuan Wang
- Abstract要約: UNICORNは、テキスト生成とバウンディングボックス予測を単一のアーキテクチャに統合するビジョン言語モデルである。
生成タスクとしてすべての視覚言語問題を定式化し、ターゲットシーケンスは統合テキストとボックストークンから構成される。
このような統合されたフレームワークと入出力フォーマットにより、UNICORNは7つのVLベンチマーク上でのタスク固有の状態に匹敵するパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 50.370767959977506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose UNICORN, a vision-language (VL) model that unifies
text generation and bounding box prediction into a single architecture.
Specifically, we quantize each box into four discrete box tokens and serialize
them as a sequence, which can be integrated with text tokens. We formulate all
VL problems as a generation task, where the target sequence consists of the
integrated text and box tokens. We then train a transformer encoder-decoder to
predict the target in an auto-regressive manner. With such a unified framework
and input-output format, UNICORN achieves comparable performance to
task-specific state of the art on 7 VL benchmarks, covering the visual
grounding, grounded captioning, visual question answering, and image captioning
tasks. When trained with multi-task finetuning, UNICORN can approach different
VL tasks with a single set of parameters, thus crossing downstream task
boundary. We show that having a single model not only saves parameters, but
also further boosts the model performance on certain tasks. Finally, UNICORN
shows the capability of generalizing to new tasks such as ImageNet object
localization.
- Abstract(参考訳): 本稿では,テキスト生成と境界ボックス予測を単一のアーキテクチャに統一する視覚言語(VL)モデルであるUNICORNを提案する。
具体的には、各ボックスを4つの離散ボックストークンに量子化し、それらをシーケンスとしてシリアライズする。
VL問題はすべて生成タスクとして定式化し、ターゲットシーケンスは統合テキストとボックストークンから構成される。
次に、変換器エンコーダデコーダを訓練し、自動回帰的にターゲットを予測する。
このような統合されたフレームワークと入力出力フォーマットにより、UNICORNは7つのVLベンチマークで、視覚的なグラウンド、接地されたキャプション、視覚的な質問応答、イメージキャプションタスクを含む、タスク固有のタスク状態と同等のパフォーマンスを達成する。
マルチタスクの微調整でトレーニングすると、UNICORNは単一のパラメータセットで異なるVLタスクにアプローチできるため、下流のタスク境界を越えることができる。
単一のモデルを持つことでパラメータを節約できるだけでなく、特定のタスクにおけるモデルパフォーマンスも向上することを示す。
最後に、UNICORNはImageNetオブジェクトのローカライゼーションのような新しいタスクに一般化する機能を示している。
関連論文リスト
- VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - Qwen-VL: A Versatile Vision-Language Model for Understanding,
Localization, Text Reading, and Beyond [72.41822115096741]
大規模視覚言語モデル(LVLM)の集合であるQwen-VLシリーズを紹介する。
視覚能力は, (i) 視覚受容体, (ii) 入力出力インタフェース, (iii) 3段階トレーニングパイプライン, (iv) 多言語マルチモーダルクリーンコーパスによって実現された。
Qwen-VLやQwen-VL-Chatを含む結果のモデルは、同様のモデルスケールでジェネラリストモデルに新しいレコードを設定した。
論文 参考訳(メタデータ) (2023-08-24T17:59:17Z) - VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文 参考訳(メタデータ) (2023-05-25T14:39:47Z) - Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks [39.12025963907317]
Unified-IOは、古典的なコンピュータビジョンタスクにまたがるさまざまなAIタスクを実行するモデルである。
我々は、サポート対象の入力と出力を個別の語彙トークン列に均質化することで、この統一を実現する。
Unified-IOはGRITベンチマークで7つのタスクすべてを実行することができる最初のモデルである。
論文 参考訳(メタデータ) (2022-06-17T17:53:47Z) - A Unified Sequence Interface for Vision Tasks [87.328893553186]
計算機ビジョンタスクの多種多様な集合は、共有画素対シーケンスインタフェースで定式化すれば統一可能であることを示す。
オブジェクト検出、インスタンスのセグメンテーション、キーポイント検出、イメージキャプションの4つのタスクにフォーカスする。
我々は、タスク固有のカスタマイズなしで、単一のモデルアーキテクチャと損失関数でニューラルネットワークをトレーニングできることを示します。
論文 参考訳(メタデータ) (2022-06-15T17:08:53Z) - UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.82482779792115]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。
既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-19T03:23:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。