論文の概要: Multi-modal Transformers Excel at Class-agnostic Object Detection
- arxiv url: http://arxiv.org/abs/2111.11430v1
- Date: Mon, 22 Nov 2021 18:59:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 16:44:32.977831
- Title: Multi-modal Transformers Excel at Class-agnostic Object Detection
- Title(参考訳): クラス非依存物体検出におけるマルチモーダルトランスフォーマーExcel
- Authors: Muhammad Maaz, Hanoona Rasheed, Salman Khan, Fahad Shahbaz Khan, Rao
Muhammad Anwer, Ming-Hsuan Yang
- Abstract要約: 既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
- 参考スコア(独自算出の注目度): 105.10403103027306
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: What constitutes an object? This has been a long-standing question in
computer vision. Towards this goal, numerous learning-free and learning-based
approaches have been developed to score objectness. However, they generally do
not scale well across new domains and for unseen objects. In this paper, we
advocate that existing methods lack a top-down supervision signal governed by
human-understandable semantics. To bridge this gap, we explore recent
Multi-modal Vision Transformers (MViT) that have been trained with aligned
image-text pairs. Our extensive experiments across various domains and novel
objects show the state-of-the-art performance of MViTs to localize generic
objects in images. Based on these findings, we develop an efficient and
flexible MViT architecture using multi-scale feature processing and deformable
self-attention that can adaptively generate proposals given a specific language
query. We show the significance of MViT proposals in a diverse range of
applications including open-world object detection, salient and camouflage
object detection, supervised and self-supervised detection tasks. Further,
MViTs offer enhanced interactability with intelligible text queries. Code:
https://git.io/J1HPY.
- Abstract(参考訳): オブジェクトを構成するものは何か?
これはコンピュータビジョンにおける長年の疑問である。
この目標に向けて、多くの学習自由で学習に基づくアプローチが開発された。
しかし、それらは一般的に新しいドメインや見えないオブジェクトに対してうまくスケールしない。
本稿では,既存の手法では人間の理解可能な意味論によって制御されるトップダウンの監視信号が欠けていることを主張する。
このギャップを埋めるために、画像とテキストのペアを並べて訓練したMViT(Multi-modal Vision Transformer)を提案する。
画像中のジェネリックオブジェクトをローカライズするためのMViTの最先端性能を示す。
これらの結果に基づき,多スケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発し,特定の言語クエリを与えられた提案を適応的に生成する。
オープンワールドオブジェクト検出,サルエントおよびカモフラージュオブジェクト検出,教師付きおよび自己監督型検出タスクなど,多種多様なアプリケーションにおけるMViT提案の重要性を示す。
さらに、MViTはインテリジェンス可能なテキストクエリとの対話性を向上する。
コード:https://git.io/J1HPY。
関連論文リスト
- VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - Detect2Interact: Localizing Object Key Field in Visual Question Answering (VQA) with LLMs [5.891295920078768]
本稿では,物体の視覚的フィールド検出のための高度な手法を提案する。
まず,画像中の物体の詳細な空間地図を生成するために,SAMモデルを用いた。
次に、Vision Studioを使用してセマンティックオブジェクト記述を抽出する。
第3に、GPT-4の常識知識を用いて、オブジェクトの意味論と空間マップとのギャップを埋める。
論文 参考訳(メタデータ) (2024-04-01T14:53:36Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - MFFN: Multi-view Feature Fusion Network for Camouflaged Object Detection [10.04773536815808]
画像中の不明瞭な物体を見つける人間の振る舞いを模倣する,Multi-view Feature Fusion Network (MFFN) と呼ばれる行動に触発されたフレームワークを提案する。
MFFNは抽出したマルチビュー特徴を比較し、融合することにより、重要なエッジとセマンティック情報をキャプチャする。
提案手法は,同一データを用いたトレーニングにより,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2022-10-12T16:12:58Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Diverse Instance Discovery: Vision-Transformer for Instance-Aware
Multi-Label Image Recognition [24.406654146411682]
視覚変換器 (ViT) が研究基盤である。
私たちの目標は、ViTのパッチトークンとセルフアテンションメカニズムを活用して、リッチなインスタンスをマルチラベルイメージでマイニングすることにあります。
マルチスケールな局所的特徴を抽出するために、弱教師付きオブジェクトローカライゼーションに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-22T14:38:40Z) - Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z) - Exploit Clues from Views: Self-Supervised and Regularized Learning for
Multiview Object Recognition [66.87417785210772]
本研究では,マルチビュー自己教師型学習(MV-SSL)の問題点について検討する。
対象不変」表現を追求し,自己指導型学習のための新しい代理課題を提案する。
実験の結果,ビュー不変プロトタイプ埋め込み(VISPE)による認識と検索は,他の自己教師あり学習方法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-28T07:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。