論文の概要: A Unified Sequence Interface for Vision Tasks
- arxiv url: http://arxiv.org/abs/2206.07669v1
- Date: Wed, 15 Jun 2022 17:08:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 12:53:50.429416
- Title: A Unified Sequence Interface for Vision Tasks
- Title(参考訳): 視覚タスクのための統一シーケンスインタフェース
- Authors: Ting Chen, Saurabh Saxena, Lala Li, Tsung-Yi Lin, David J. Fleet,
Geoffrey Hinton
- Abstract要約: 計算機ビジョンタスクの多種多様な集合は、共有画素対シーケンスインタフェースで定式化すれば統一可能であることを示す。
オブジェクト検出、インスタンスのセグメンテーション、キーポイント検出、イメージキャプションの4つのタスクにフォーカスする。
我々は、タスク固有のカスタマイズなしで、単一のモデルアーキテクチャと損失関数でニューラルネットワークをトレーニングできることを示します。
- 参考スコア(独自算出の注目度): 87.328893553186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While language tasks are naturally expressed in a single, unified, modeling
framework, i.e., generating sequences of tokens, this has not been the case in
computer vision. As a result, there is a proliferation of distinct
architectures and loss functions for different vision tasks. In this work we
show that a diverse set of "core" computer vision tasks can also be unified if
formulated in terms of a shared pixel-to-sequence interface. We focus on four
tasks, namely, object detection, instance segmentation, keypoint detection, and
image captioning, all with diverse types of outputs, e.g., bounding boxes or
dense masks. Despite that, by formulating the output of each task as a sequence
of discrete tokens with a unified interface, we show that one can train a
neural network with a single model architecture and loss function on all these
tasks, with no task-specific customization. To solve a specific task, we use a
short prompt as task description, and the sequence output adapts to the prompt
so it can produce task-specific output. We show that such a model can achieve
competitive performance compared to well-established task-specific models.
- Abstract(参考訳): 言語タスクは、自然に単一の統一されたモデリングフレームワーク、すなわちトークンのシーケンスを生成することで表現されるが、コンピュータビジョンではそうではない。
結果として、異なる視覚タスクに対する異なるアーキテクチャと損失関数が急増している。
本研究は,共有画素対シーケンスインタフェースで定式化すれば,多種多様な「コア」コンピュータビジョンタスクも統合可能であることを示す。
我々は,オブジェクト検出,インスタンスセグメンテーション,キーポイント検出,画像キャプションという4つのタスクに注目した。
それにもかかわらず、各タスクの出力を統一されたインターフェースで離散トークンのシーケンスとして定式化することにより、タスク固有のカスタマイズなしで単一のモデルアーキテクチャと損失関数でニューラルネットワークをトレーニングできることが示される。
特定のタスクを解決するために、短いプロンプトをタスク記述として使用し、シーケンス出力がプロンプトに適応してタスク固有の出力を生成する。
このようなモデルでは,タスク固有のモデルと比較して,競争性能が向上することを示す。
関連論文リスト
- Masked AutoDecoder is Effective Multi-Task Vision Generalist [64.43215311406195]
Masked AutoDecoder (MAD) はマルチタスク・ビジョン・ジェネラリストである。
我々は、コンテキスト依存を捉えるために双方向の注意を喚起する並列デコーディングフレームワークを開発する。
第二に、マスキングとタスクシーケンス再構築により、リッチなタスクコンテキストを学習するマスキングシーケンスモデリング手法を設計する。
論文 参考訳(メタデータ) (2024-03-12T14:36:52Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - Video Task Decathlon: Unifying Image and Video Tasks in Autonomous
Driving [85.62076860189116]
Video Task Decathlon (VTD)には、分類、セグメンテーション、ローカライゼーション、オブジェクトとピクセルの関連にまたがる10の代表的な画像とビデオタスクが含まれている。
我々は、単一の構造と10タスクすべてに一組の重みを持つ統合ネットワークVTDNetを開発した。
論文 参考訳(メタデータ) (2023-09-08T16:33:27Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - All in Tokens: Unifying Output Space of Visual Tasks via Soft Token [30.6086480249568]
インスタンス分割と深度推定の2つの典型的な視覚的タスクを同時に扱う単一の統一モデルを示す。
本稿では,視覚的タスクの特異性を考慮した新しい手法を提案する。
我々はNYUv2深度推定の特定のタスクに対して0.279 RMSEを達成し、このベンチマークで新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-01-05T18:55:20Z) - Images Speak in Images: A Generalist Painter for In-Context Visual
Learning [98.78475432114595]
コンテキスト内学習により、モデルはいくつかのプロンプトと例だけで、様々なタスクに迅速に適応できる。
汎用タスクをどのように定義すれば、ビジョンモデルがドメイン外のタスクを理解し、転送できるのかは不明だ。
我々は、コアビジョンタスクの出力をイメージとして再定義し、タスクプロンプトを画像として指定する汎用モデルであるPapererを提案する。
論文 参考訳(メタデータ) (2022-12-05T18:59:50Z) - Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks [39.12025963907317]
Unified-IOは、古典的なコンピュータビジョンタスクにまたがるさまざまなAIタスクを実行するモデルである。
我々は、サポート対象の入力と出力を個別の語彙トークン列に均質化することで、この統一を実現する。
Unified-IOはGRITベンチマークで7つのタスクすべてを実行することができる最初のモデルである。
論文 参考訳(メタデータ) (2022-06-17T17:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。