論文の概要: CoTDet: Affordance Knowledge Prompting for Task Driven Object Detection
- arxiv url: http://arxiv.org/abs/2309.01093v1
- Date: Sun, 3 Sep 2023 06:18:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 21:33:49.260081
- Title: CoTDet: Affordance Knowledge Prompting for Task Driven Object Detection
- Title(参考訳): cotdet: タスク駆動オブジェクト検出のためのアプライアンス知識プロンプト
- Authors: Jiajin Tang, Ge Zheng, Jingyi Yu, Sibei Yang
- Abstract要約: タスク駆動オブジェクト検出は、イメージ内のタスクを提供するのに適したオブジェクトインスタンスを検出することを目的としている。
その課題は、従来のオブジェクト検出のためのクローズドなオブジェクト語彙に制限されるほど多様すぎるタスクのために利用できるオブジェクトカテゴリにある。
本稿では,オブジェクトカテゴリではなく,異なるオブジェクトが同じタスクを達成できる共通属性について検討する。
- 参考スコア(独自算出の注目度): 42.2847114428716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task driven object detection aims to detect object instances suitable for
affording a task in an image. Its challenge lies in object categories available
for the task being too diverse to be limited to a closed set of object
vocabulary for traditional object detection. Simply mapping categories and
visual features of common objects to the task cannot address the challenge. In
this paper, we propose to explore fundamental affordances rather than object
categories, i.e., common attributes that enable different objects to accomplish
the same task. Moreover, we propose a novel multi-level chain-of-thought
prompting (MLCoT) to extract the affordance knowledge from large language
models, which contains multi-level reasoning steps from task to object examples
to essential visual attributes with rationales. Furthermore, to fully exploit
knowledge to benefit object recognition and localization, we propose a
knowledge-conditional detection framework, namely CoTDet. It conditions the
detector from the knowledge to generate object queries and regress boxes.
Experimental results demonstrate that our CoTDet outperforms state-of-the-art
methods consistently and significantly (+15.6 box AP and +14.8 mask AP) and can
generate rationales for why objects are detected to afford the task.
- Abstract(参考訳): タスク駆動オブジェクト検出は、イメージ内のタスクを提供するのに適したオブジェクトインスタンスを検出することを目的としている。
その課題は、従来のオブジェクト検出のためのクローズドなオブジェクト語彙に制限されるほど多様すぎるタスクのために利用できるオブジェクトカテゴリにある。
共通オブジェクトのカテゴリと視覚的特徴をタスクにマッピングするだけでは、課題に対処できない。
本稿では,オブジェクトのカテゴリ,すなわち異なるオブジェクトが同じタスクを遂行できる共通属性ではなく,基本的なアフォーアンスを検討することを提案する。
さらに,タスクからオブジェクトへの多レベル推論ステップを含む大規模言語モデルから,有理性を持つ必須視覚属性へのアプライアンス知識を抽出するための,新たな多レベル連鎖思考促進(mlcot)を提案する。
さらに,知識を十分に活用して物体認識と局所化に資するため,知識条件検出フレームワークcotdetを提案する。
知識から検出器を条件付け、オブジェクトクエリと回帰ボックスを生成する。
実験の結果,CoTDetは最先端の手法を連続的に,かつ著しく向上し(+15.6 box APと+14.8 mask AP),なぜオブジェクトが検出されたのかを合理的に生成できることがわかった。
関連論文リスト
- Leverage Task Context for Object Affordance Ranking [57.59106517732223]
25の共通タスク、50k以上の画像、661k以上のオブジェクトからなる、最初の大規模タスク指向のアベイランスランキングデータセットを構築しました。
その結果,タスクコンテキストに基づくアベイランス学習のパラダイムの実現可能性と,サリエンシランキングやマルチモーダルオブジェクト検出の分野における最先端モデルよりも,我々のモデルの方が優れていることが示された。
論文 参考訳(メタデータ) (2024-11-25T04:22:33Z) - Learning Background Prompts to Discover Implicit Knowledge for Open Vocabulary Object Detection [101.15777242546649]
Open vocabulary Object Detection (OVD) は、ベースと新規の両方のカテゴリからオブジェクトを認識できる最適なオブジェクト検出器を求めることを目的としている。
近年の進歩は、知識蒸留を利用して、事前訓練された大規模視覚言語モデルからオブジェクト検出のタスクに洞察力のある知識を伝達している。
本稿では,暗黙的背景知識を活用するための学習バックグラウンドプロンプトを提案するため,LBPと呼ばれる新しいOVDフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T17:32:26Z) - Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition [21.655278000690686]
エンドツーエンドのオブジェクト中心のアクション認識フレームワークを提案する。
同時に1つのステージで検出と相互作用の推論を行う。
我々はSomes-ElseとIkea-Assemblyという2つのデータセットで実験を行う。
論文 参考訳(メタデータ) (2024-04-18T05:06:12Z) - Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。
これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。
提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文 参考訳(メタデータ) (2023-06-03T21:49:06Z) - Universal Instance Perception as Object Discovery and Retrieval [90.96031157557806]
UNIは多様なインスタンス認識タスクを統一されたオブジェクト発見・検索パラダイムに再構成する。
入力プロンプトを変更するだけで、さまざまな種類のオブジェクトを柔軟に知覚することができる。
UNIは10のインスタンスレベルのタスクから20の挑戦的なベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-12T14:28:24Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - Pix2seq: A Language Modeling Framework for Object Detection [12.788663431798588]
Pix2Seqはオブジェクト検出のためのシンプルで汎用的なフレームワークである。
我々はニューラルネットをトレーニングし、画像を認識し、所望のシーケンスを生成する。
私たちのアプローチは主に、ニューラルネットワークがオブジェクトの場所と場所を知っていれば、その読み方を教える必要がある、という直感に基づいています。
論文 参考訳(メタデータ) (2021-09-22T17:26:36Z) - Class-agnostic Object Detection [16.97782147401037]
本稿では,オブジェクトのクラスに関係なくオブジェクトを検出することに焦点を当てた新しい問題として,クラスに依存しないオブジェクト検出を提案する。
具体的には、イメージ内のすべてのオブジェクトのバウンディングボックスを予測することであり、オブジェクトクラスではない。
本稿では,この領域における今後の研究を進めるために,クラス非依存検出器のベンチマークのためのトレーニングおよび評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-28T19:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。