Fugu-MT 論文翻訳(概要): Universal Instance Perception as Object Discovery and Retrieval

論文の概要: Universal Instance Perception as Object Discovery and Retrieval

arxiv url: http://arxiv.org/abs/2303.06674v1
Date: Sun, 12 Mar 2023 14:28:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-14 17:25:31.940726
Title: Universal Instance Perception as Object Discovery and Retrieval
Title（参考訳）: オブジェクト発見と検索としてのユニバーサルインスタンス認識
Authors: Bin Yan, Yi Jiang, Jiannan Wu, Dong Wang, Ping Luo, Zehuan Yuan, Huchuan Lu
Abstract要約: UNIは多様なインスタンス認識タスクを統一されたオブジェクト発見・検索パラダイムに再構成する。入力プロンプトを変更するだけで、さまざまな種類のオブジェクトを柔軟に知覚することができる。 UNIは10のインスタンスレベルのタスクから20の挑戦的なベンチマークで優れたパフォーマンスを示している。
参考スコア（独自算出の注目度）: 86.9084606039098
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: All instance perception tasks aim at finding certain objects specified by some queries such as category names, language expressions, and target annotations, but this complete field has been split into multiple independent subtasks. In this work, we present a universal instance perception model of the next generation, termed UNINEXT. UNINEXT reformulates diverse instance perception tasks into a unified object discovery and retrieval paradigm and can flexibly perceive different types of objects by simply changing the input prompts. This unified formulation brings the following benefits: (1) enormous data from different tasks and label vocabularies can be exploited for jointly training general instance-level representations, which is especially beneficial for tasks lacking in training data. (2) the unified model is parameter-efficient and can save redundant computation when handling multiple tasks simultaneously. UNINEXT shows superior performance on 20 challenging benchmarks from 10 instance-level tasks including classical image-level tasks (object detection and instance segmentation), vision-and-language tasks (referring expression comprehension and segmentation), and six video-level object tracking tasks. Code is available at https://github.com/MasterBin-IIAU/UNINEXT.
Abstract（参考訳）: すべてのインスタンス認識タスクは、カテゴリ名、言語表現、ターゲットアノテーションなどのクエリによって指定された特定のオブジェクトを見つけることを目的としているが、この完全なフィールドは複数の独立したサブタスクに分割されている。本稿では,次世代の普遍的インスタンス知覚モデルであるuninextを提案する。 UNINEXTは、多様なインスタンス認識タスクを統一されたオブジェクト発見検索パラダイムに再構成し、入力プロンプトを単に変更することで、様々なタイプのオブジェクトを柔軟に知覚することができる。この統一的な定式化は、(1)異なるタスクやラベル語彙からの膨大なデータを利用して、一般的なインスタンスレベルの表現を共同トレーニングすることが可能であり、特にトレーニングデータに欠けているタスクに有用である。 2) 統一モデルはパラメータ効率が高く、複数のタスクを同時に処理する際に冗長な計算を保存できる。 uninextは、古典的なイメージレベルタスク(オブジェクト検出とインスタンスセグメンテーション)、視覚と言語タスク(表現の理解とセグメンテーションを推論)、そして6つのビデオレベルのオブジェクトトラッキングタスクを含む、10のインスタンスレベルのタスクから20の挑戦的なベンチマークで優れたパフォーマンスを示している。コードはhttps://github.com/masterbin-iiau/uninextで入手できる。

関連論文リスト

Tracking and Segmenting Anything in Any Modality [75.32774085793498]
そこで我々はSATAという汎用的なトラッキング・セグメンテーション・フレームワークを提案し、このフレームワークは任意のモダリティ入力でトラッキング・セグメンテーション・サブタスクの広帯域を統一する。 SATAは18の挑戦的なトラッキングとセグメンテーションベンチマークで優れたパフォーマンスを示し、より一般化可能なビデオ理解のための新しい視点を提供する。
論文参考訳（メタデータ） (2025-11-22T09:09:22Z)
From Open-Vocabulary to Vocabulary-Free Semantic Segmentation [78.62232202171919]
オープン語彙セマンティックセグメンテーションにより、モデルはトレーニングデータ以外の新しいオブジェクトカテゴリを識別できる。現在のアプローチは依然として入力として手動で指定されたクラス名に依存しており、現実世界のアプリケーションに固有のボトルネックを生み出している。この研究は、定義済みのクラス語彙を必要としない、語彙自由セマンティックパイプラインを提案する。
論文参考訳（メタデータ） (2025-02-17T15:17:08Z)
UniFS: Universal Few-shot Instance Perception with Point Representations [36.943019984075065]
そこで我々は,UniFSを提案する。UniFSは多種多様なインスタンス認識タスクを統一する汎用のインスタンス認識モデルである。提案手法は,タスクについて最小限の仮定を行うが,高度に専門的で最適化されたスペシャリストモデルと比較して,競争力のある結果が得られる。
論文参考訳（メタデータ） (2024-04-30T09:47:44Z)
DOCTR: Disentangled Object-Centric Transformer for Point Scene Understanding [7.470587868134298]
ポイントシーン理解は、現実世界のシーンポイントクラウドを処理する上で難しいタスクです。最近の最先端の手法はまず各オブジェクトを分割し、次に異なるサブタスクの複数のステージで独立に処理する。本稿では,オブジェクト中心表現を探索するDECTR(Disentangled Object-Centric TRansformer)を提案する。
論文参考訳（メタデータ） (2024-03-25T05:22:34Z)
Distribution Matching for Multi-Task Learning of Classification Tasks: a Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。 MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-02T14:18:11Z)
Aligning and Prompting Everything All at Once for Universal Visual Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。 APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。 160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文参考訳（メタデータ） (2023-12-04T18:59:50Z)
CoTDet: Affordance Knowledge Prompting for Task Driven Object Detection [42.2847114428716]
タスク駆動オブジェクト検出は、イメージ内のタスクを提供するのに適したオブジェクトインスタンスを検出することを目的としている。その課題は、従来のオブジェクト検出のためのクローズドなオブジェクト語彙に制限されるほど多様すぎるタスクのために利用できるオブジェクトカテゴリにある。本稿では,オブジェクトカテゴリではなく,異なるオブジェクトが同じタスクを達成できる共通属性について検討する。
論文参考訳（メタデータ） (2023-09-03T06:18:39Z)
A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文参考訳（メタデータ） (2023-06-08T09:24:46Z)
BURST: A Benchmark for Unifying Object Recognition, Segmentation and Tracking in Video [58.71785546245467]
複数の既存のベンチマークには、ビデオ内のオブジェクトのトラッキングとセグメンテーションが含まれる。異なるベンチマークデータセットとメトリクスを使用するため、それらの相互作用はほとんどありません。高品質なオブジェクトマスクを備えた数千の多様なビデオを含むデータセットであるBURSTを提案する。すべてのタスクは、同じデータと同等のメトリクスを使って評価されます。
論文参考訳（メタデータ） (2022-09-25T01:27:35Z)
FindIt: Generalized Localization with Natural Language Queries [43.07139534653485]
FindItは、さまざまな視覚的グラウンドとローカライゼーションタスクを統合する、シンプルで汎用的なフレームワークである。我々のアーキテクチャの鍵は、異なるローカライゼーション要求を統一する効率的なマルチスケール融合モジュールである。エンドツーエンドのトレーニング可能なフレームワークは、幅広い参照表現、ローカライゼーション、検出クエリに柔軟かつ正確に対応します。
論文参考訳（メタデータ） (2022-03-31T17:59:30Z)
Unifying Vision-and-Language Tasks via Text Generation [81.3910771082967]
一つのアーキテクチャで異なるタスクを学習する統合フレームワークを提案する。我々のモデルは、視覚的およびテキスト的入力に基づいて、テキストでラベルを生成することを学習する。我々の生成的アプローチは、稀な答えを持つ質問に答える上で、より優れた一般化能力を示す。
論文参考訳（メタデータ） (2021-02-04T17:59:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。