論文の概要: TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object
Detection
- arxiv url: http://arxiv.org/abs/2403.08108v1
- Date: Tue, 12 Mar 2024 22:33:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 16:22:38.325385
- Title: TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object
Detection
- Title(参考訳): TaskCLIP:タスク指向オブジェクトに対する大規模ビジョンランゲージモデルの拡張
検出
- Authors: Hanning Chen, Wenjun Huang, Yang Ni, Sanggeon Yun, Fei Wen, Hugo
Latapie, Mohsen Imani
- Abstract要約: タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
- 参考スコア(独自算出の注目度): 21.11998015053674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task-oriented object detection aims to find objects suitable for
accomplishing specific tasks. As a challenging task, it requires simultaneous
visual data processing and reasoning under ambiguous semantics. Recent
solutions are mainly all-in-one models. However, the object detection backbones
are pre-trained without text supervision. Thus, to incorporate task
requirements, their intricate models undergo extensive learning on a highly
imbalanced and scarce dataset, resulting in capped performance, laborious
training, and poor generalizability. In contrast, we propose TaskCLIP, a more
natural two-stage design composed of general object detection and task-guided
object selection. Particularly for the latter, we resort to the recently
successful large Vision-Language Models (VLMs) as our backbone, which provides
rich semantic knowledge and a uniform embedding space for images and texts.
Nevertheless, the naive application of VLMs leads to sub-optimal quality, due
to the misalignment between embeddings of object images and their visual
attributes, which are mainly adjective phrases. To this end, we design a
transformer-based aligner after the pre-trained VLMs to re-calibrate both
embeddings. Finally, we employ a trainable score function to post-process the
VLM matching results for object selection. Experimental results demonstrate
that our TaskCLIP outperforms the state-of-the-art DETR-based model TOIST by
3.5% and only requires a single NVIDIA RTX 4090 for both training and
inference.
- Abstract(参考訳): タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
難しいタスクとして、曖昧なセマンティクスの下で、同時に視覚データ処理と推論が必要である。
最近のソリューションは主にオールインワンモデルです。
しかし、オブジェクト検出バックボーンは、テキストの監督なしに事前訓練される。
このように、タスク要求を組み込むために、彼らの複雑なモデルは、高度に不均衡で少ないデータセットで広範囲に学習し、その結果、パフォーマンスの上限、厳しいトレーニング、一般化性に欠ける。
対照的に、汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
特に後者では、画像やテキストに対する豊富なセマンティック知識と均一な埋め込み空間を提供する、最近成功した大きなビジョン・ランゲージ・モデル(VLM)をバックボーンとして採用しています。
にもかかわらず、VLMの単純適用は、主に形容詞句であるオブジェクト画像の埋め込みと視覚的属性との相違により、準最適品質をもたらす。
そこで本稿では,VLM の後継となる変圧器ベースの整合器を設計し,両埋め込みの校正を行う。
最後に、トレーニング可能なスコア関数を用いて、オブジェクト選択のためのVLMマッチング結果を後処理する。
実験の結果,TaskCLIPは最先端のDETRベースモデルであるTOISTを3.5%上回り,トレーニングと推論の両方に1つのNVIDIA RTX 4090しか必要としないことがわかった。
関連論文リスト
- FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。
我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。
これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文 参考訳(メタデータ) (2024-09-23T06:56:51Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Pre-train, Adapt and Detect: Multi-Task Adapter Tuning for Camouflaged
Object Detection [38.5505943598037]
カモフラージュされた物体を検出するために, 事前学習, 適応, 検出のパラダイムを提案する。
大規模な事前学習モデルを導入することで、大量のマルチモーダルデータから得られた豊富な知識を直接CODに転送することができる。
提案手法は既存のCODモデルよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-07-20T08:25:38Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。
補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文 参考訳(メタデータ) (2020-10-28T19:27:26Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。