論文の概要: Obj2Seq: Formatting Objects as Sequences with Class Prompt for Visual
Tasks
- arxiv url: http://arxiv.org/abs/2209.13948v1
- Date: Wed, 28 Sep 2022 09:24:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 17:24:26.094516
- Title: Obj2Seq: Formatting Objects as Sequences with Class Prompt for Visual
Tasks
- Title(参考訳): Obj2Seq: ビジュアルタスクのためのクラスプロンプトでオブジェクトをシーケンスとしてフォーマットする
- Authors: Zhiyang Chen, Yousong Zhu, Zhaowen Li, Fan Yang, Wei Li, Haixin Wang,
Chaoyang Zhao, Liwei Wu, Rui Zhao, Jinqiao Wang, Ming Tang
- Abstract要約: 視覚的なタスクは出力形式や関連する内容によって大きく異なるため、同じ構造で処理することは困難である。
本稿では,オブジェクトレベルの視覚的タスクに対して,オブジェクト中心のフレームワークである2Seqを提案する。
- 参考スコア(独自算出の注目度): 48.04078544747652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual tasks vary a lot in their output formats and concerned contents,
therefore it is hard to process them with an identical structure. One main
obstacle lies in the high-dimensional outputs in object-level visual tasks. In
this paper, we propose an object-centric vision framework, Obj2Seq. Obj2Seq
takes objects as basic units, and regards most object-level visual tasks as
sequence generation problems of objects. Therefore, these visual tasks can be
decoupled into two steps. First recognize objects of given categories, and then
generate a sequence for each of these objects. The definition of the output
sequences varies for different tasks, and the model is supervised by matching
these sequences with ground-truth targets. Obj2Seq is able to flexibly
determine input categories to satisfy customized requirements, and be easily
extended to different visual tasks. When experimenting on MS COCO, Obj2Seq
achieves 45.7% AP on object detection, 89.0% AP on multi-label classification
and 65.0% AP on human pose estimation. These results demonstrate its potential
to be generally applied to different visual tasks. Code has been made available
at: https://github.com/CASIA-IVA-Lab/Obj2Seq.
- Abstract(参考訳): 視覚的なタスクは出力形式や関連する内容によって大きく異なるため、同じ構造で処理することは困難である。
主な障害は、オブジェクトレベルの視覚タスクの高次元出力にある。
本稿では,オブジェクト中心のビジョンフレームワークobj2seqを提案する。
obj2seqはオブジェクトを基本単位とし、ほとんどのオブジェクトレベルのビジュアルタスクをオブジェクトのシーケンス生成問題と見なす。
したがって、これらのビジュアルタスクは2つのステップに分離できる。
まず、与えられたカテゴリのオブジェクトを認識し、それぞれのオブジェクトのシーケンスを生成する。
出力シーケンスの定義はタスクによって異なり、これらのシーケンスと接地対象とを一致させることでモデルが監督される。
Obj2Seqは、カスタマイズされた要求を満たすための入力カテゴリを柔軟に決定でき、異なる視覚タスクに容易に拡張できる。
ms cocoで実験すると、obj2seqは物体検出で45.7%、マルチラベル分類で89.0%、ポーズ推定で65.0%のapを達成している。
これらの結果は、様々な視覚的タスクに適用できる可能性を示している。
コードはhttps://github.com/CASIA-IVA-Lab/Obj2Seqで公開されている。
関連論文リスト
- 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - CoTDet: Affordance Knowledge Prompting for Task Driven Object Detection [42.2847114428716]
タスク駆動オブジェクト検出は、イメージ内のタスクを提供するのに適したオブジェクトインスタンスを検出することを目的としている。
その課題は、従来のオブジェクト検出のためのクローズドなオブジェクト語彙に制限されるほど多様すぎるタスクのために利用できるオブジェクトカテゴリにある。
本稿では,オブジェクトカテゴリではなく,異なるオブジェクトが同じタスクを達成できる共通属性について検討する。
論文 参考訳(メタデータ) (2023-09-03T06:18:39Z) - Universal Instance Perception as Object Discovery and Retrieval [90.96031157557806]
UNIは多様なインスタンス認識タスクを統一されたオブジェクト発見・検索パラダイムに再構成する。
入力プロンプトを変更するだけで、さまざまな種類のオブジェクトを柔軟に知覚することができる。
UNIは10のインスタンスレベルのタスクから20の挑戦的なベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-12T14:28:24Z) - BURST: A Benchmark for Unifying Object Recognition, Segmentation and
Tracking in Video [58.71785546245467]
複数の既存のベンチマークには、ビデオ内のオブジェクトのトラッキングとセグメンテーションが含まれる。
異なるベンチマークデータセットとメトリクスを使用するため、それらの相互作用はほとんどありません。
高品質なオブジェクトマスクを備えた数千の多様なビデオを含むデータセットであるBURSTを提案する。
すべてのタスクは、同じデータと同等のメトリクスを使って評価されます。
論文 参考訳(メタデータ) (2022-09-25T01:27:35Z) - A Unified Sequence Interface for Vision Tasks [87.328893553186]
計算機ビジョンタスクの多種多様な集合は、共有画素対シーケンスインタフェースで定式化すれば統一可能であることを示す。
オブジェクト検出、インスタンスのセグメンテーション、キーポイント検出、イメージキャプションの4つのタスクにフォーカスする。
我々は、タスク固有のカスタマイズなしで、単一のモデルアーキテクチャと損失関数でニューラルネットワークをトレーニングできることを示します。
論文 参考訳(メタデータ) (2022-06-15T17:08:53Z) - ASOD60K: Audio-Induced Salient Object Detection in Panoramic Videos [79.05486554647918]
本研究では,パノラマビデオから有能な物体を分離する新しいタスクであるPV-SODを提案する。
既存の固定レベルやオブジェクトレベルの塩分濃度検出タスクとは対照的に,多モードの塩分濃度検出(SOD)に焦点を当てる。
AsOD60Kという,6レベル階層の4K解像度ビデオフレームを含む,最初の大規模データセットを収集する。
論文 参考訳(メタデータ) (2021-07-24T15:14:20Z) - Dilated-Scale-Aware Attention ConvNet For Multi-Class Object Counting [18.733301622920102]
多クラスオブジェクトカウントは、オブジェクトカウントタスクの適用範囲を広げる。
マルチターゲット検出タスクは、いくつかのシナリオでマルチクラスオブジェクトカウントを実現することができる。
ポイントレベルのアノテーションに基づく簡便かつ効率的なカウントネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T08:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。