論文の概要: Universal Instance Perception as Object Discovery and Retrieval
- arxiv url: http://arxiv.org/abs/2303.06674v1
- Date: Sun, 12 Mar 2023 14:28:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 17:25:31.940726
- Title: Universal Instance Perception as Object Discovery and Retrieval
- Title(参考訳): オブジェクト発見と検索としてのユニバーサルインスタンス認識
- Authors: Bin Yan, Yi Jiang, Jiannan Wu, Dong Wang, Ping Luo, Zehuan Yuan,
Huchuan Lu
- Abstract要約: UNIは多様なインスタンス認識タスクを統一されたオブジェクト発見・検索パラダイムに再構成する。
入力プロンプトを変更するだけで、さまざまな種類のオブジェクトを柔軟に知覚することができる。
UNIは10のインスタンスレベルのタスクから20の挑戦的なベンチマークで優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 86.9084606039098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: All instance perception tasks aim at finding certain objects specified by
some queries such as category names, language expressions, and target
annotations, but this complete field has been split into multiple independent
subtasks. In this work, we present a universal instance perception model of the
next generation, termed UNINEXT. UNINEXT reformulates diverse instance
perception tasks into a unified object discovery and retrieval paradigm and can
flexibly perceive different types of objects by simply changing the input
prompts. This unified formulation brings the following benefits: (1) enormous
data from different tasks and label vocabularies can be exploited for jointly
training general instance-level representations, which is especially beneficial
for tasks lacking in training data. (2) the unified model is
parameter-efficient and can save redundant computation when handling multiple
tasks simultaneously. UNINEXT shows superior performance on 20 challenging
benchmarks from 10 instance-level tasks including classical image-level tasks
(object detection and instance segmentation), vision-and-language tasks
(referring expression comprehension and segmentation), and six video-level
object tracking tasks. Code is available at
https://github.com/MasterBin-IIAU/UNINEXT.
- Abstract(参考訳): すべてのインスタンス認識タスクは、カテゴリ名、言語表現、ターゲットアノテーションなどのクエリによって指定された特定のオブジェクトを見つけることを目的としているが、この完全なフィールドは複数の独立したサブタスクに分割されている。
本稿では,次世代の普遍的インスタンス知覚モデルであるuninextを提案する。
UNINEXTは、多様なインスタンス認識タスクを統一されたオブジェクト発見検索パラダイムに再構成し、入力プロンプトを単に変更することで、様々なタイプのオブジェクトを柔軟に知覚することができる。
この統一的な定式化は、(1)異なるタスクやラベル語彙からの膨大なデータを利用して、一般的なインスタンスレベルの表現を共同トレーニングすることが可能であり、特にトレーニングデータに欠けているタスクに有用である。
2) 統一モデルはパラメータ効率が高く、複数のタスクを同時に処理する際に冗長な計算を保存できる。
uninextは、古典的なイメージレベルタスク(オブジェクト検出とインスタンスセグメンテーション)、視覚と言語タスク(表現の理解とセグメンテーションを推論)、そして6つのビデオレベルのオブジェクトトラッキングタスクを含む、10のインスタンスレベルのタスクから20の挑戦的なベンチマークで優れたパフォーマンスを示している。
コードはhttps://github.com/masterbin-iiau/uninextで入手できる。
関連論文リスト
- TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object
Detection [21.11998015053674]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - CoTDet: Affordance Knowledge Prompting for Task Driven Object Detection [42.2847114428716]
タスク駆動オブジェクト検出は、イメージ内のタスクを提供するのに適したオブジェクトインスタンスを検出することを目的としている。
その課題は、従来のオブジェクト検出のためのクローズドなオブジェクト語彙に制限されるほど多様すぎるタスクのために利用できるオブジェクトカテゴリにある。
本稿では,オブジェクトカテゴリではなく,異なるオブジェクトが同じタスクを達成できる共通属性について検討する。
論文 参考訳(メタデータ) (2023-09-03T06:18:39Z) - Learning Dynamic Attribute-factored World Models for Efficient
Multi-object Reinforcement Learning [6.447052211404121]
多くの強化学習タスクでは、エージェントは異なるタイプの多くのオブジェクトと対話し、目に見えない組み合わせやオブジェクト数に一般化する必要がある。
最近の研究は、サンプル効率を改善するために、オブジェクト指向表現と階層的抽象化の利点を示している。
本稿では、動的属性FacTored RL(DAFT-RL)フレームワークを導入し、オブジェクト属性の係数化の利点を利用する。
論文 参考訳(メタデータ) (2023-07-18T12:41:28Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - BURST: A Benchmark for Unifying Object Recognition, Segmentation and
Tracking in Video [58.71785546245467]
複数の既存のベンチマークには、ビデオ内のオブジェクトのトラッキングとセグメンテーションが含まれる。
異なるベンチマークデータセットとメトリクスを使用するため、それらの相互作用はほとんどありません。
高品質なオブジェクトマスクを備えた数千の多様なビデオを含むデータセットであるBURSTを提案する。
すべてのタスクは、同じデータと同等のメトリクスを使って評価されます。
論文 参考訳(メタデータ) (2022-09-25T01:27:35Z) - FindIt: Generalized Localization with Natural Language Queries [43.07139534653485]
FindItは、さまざまな視覚的グラウンドとローカライゼーションタスクを統合する、シンプルで汎用的なフレームワークである。
我々のアーキテクチャの鍵は、異なるローカライゼーション要求を統一する効率的なマルチスケール融合モジュールである。
エンドツーエンドのトレーニング可能なフレームワークは、幅広い参照表現、ローカライゼーション、検出クエリに柔軟かつ正確に対応します。
論文 参考訳(メタデータ) (2022-03-31T17:59:30Z) - Unifying Vision-and-Language Tasks via Text Generation [81.3910771082967]
一つのアーキテクチャで異なるタスクを学習する統合フレームワークを提案する。
我々のモデルは、視覚的およびテキスト的入力に基づいて、テキストでラベルを生成することを学習する。
我々の生成的アプローチは、稀な答えを持つ質問に答える上で、より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-04T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。