論文の概要: Efficient Multi-Object Pose Estimation using Multi-Resolution Deformable
Attention and Query Aggregation
- arxiv url: http://arxiv.org/abs/2312.08268v1
- Date: Wed, 13 Dec 2023 16:30:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 14:49:58.263094
- Title: Efficient Multi-Object Pose Estimation using Multi-Resolution Deformable
Attention and Query Aggregation
- Title(参考訳): マルチリゾリューションデフォルマブルアテンションとクエリアグリゲーションを用いた効率的なマルチオブジェクトポーズ推定
- Authors: Arul Selvam Periyasamy, Vladimir Tsaturyan, Sven Behnke
- Abstract要約: 多目的ポーズ推定のための視覚変換器モデルに帰納バイアスを取り入れることを検討する。
本稿では,計算複雑性を増大させることなく,オブジェクトクエリ数を増大させるクエリ集約機構を提案する。
課題となるYCB-Videoデータセットについて提案したモデルを評価し,その結果を報告する。
- 参考スコア(独自算出の注目度): 19.995626376471765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object pose estimation is a long-standing problem in computer vision.
Recently, attention-based vision transformer models have achieved
state-of-the-art results in many computer vision applications. Exploiting the
permutation-invariant nature of the attention mechanism, a family of vision
transformer models formulate multi-object pose estimation as a set prediction
problem. However, existing vision transformer models for multi-object pose
estimation rely exclusively on the attention mechanism. Convolutional neural
networks, on the other hand, hard-wire various inductive biases into their
architecture. In this paper, we investigate incorporating inductive biases in
vision transformer models for multi-object pose estimation, which facilitates
learning long-range dependencies while circumventing the costly global
attention. In particular, we use multi-resolution deformable attention, where
the attention operation is performed only between a few deformed reference
points. Furthermore, we propose a query aggregation mechanism that enables
increasing the number of object queries without increasing the computational
complexity. We evaluate the proposed model on the challenging YCB-Video dataset
and report state-of-the-art results.
- Abstract(参考訳): オブジェクトのポーズ推定はコンピュータビジョンにおける長年の問題である。
近年,多くのコンピュータビジョン応用において注目型視覚変換器モデルが最先端の成果を上げている。
アテンション機構の置換不変性を利用して、視覚トランスフォーマーのファミリーは、集合予測問題として多目的ポーズ推定を定式化する。
しかし、マルチオブジェクトポーズ推定のための既存のビジョントランスフォーマーモデルは注意機構にのみ依存している。
一方、畳み込みニューラルネットワークは、そのアーキテクチャに様々な帰納的バイアスをハードワイヤ化する。
本稿では,多目的ポーズ推定のための視覚トランスフォーマーモデルに帰納バイアスを組み込むことで,コストのかかるグローバルな注意を回避しつつ,長距離依存の学習を容易にする。
特にマルチレゾリューションの変形可能な注意(英語版)を用い、いくつかの変形した参照点間でのみ注意操作を行う。
さらに,計算複雑性を増大させることなく,オブジェクトクエリ数を増大させるクエリ集約機構を提案する。
課題となるYCB-Videoデータセットについて提案したモデルを評価し,その結果を報告する。
関連論文リスト
- Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks [50.75902473813379]
本研究は、そのようなモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。
提案フレームワークは,極度の命令摂動に対するマルチモーダルモデルのレジリエンスと,観測的変化に対する脆弱性を明らかにする。
論文 参考訳(メタデータ) (2024-07-04T14:36:49Z) - LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。
このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。
本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文 参考訳(メタデータ) (2024-04-03T23:57:34Z) - Solving the Clustering Reasoning Problems by Modeling a Deep-Learning-Based Probabilistic Model [1.7955614278088239]
我々は,Bongard-Logoで高い推論精度を実現する深層学習に基づく確率モデルであるPMoCを紹介する。
また,複雑な視覚的抽象的推論タスクのためのPose-Transformerを設計した。
論文 参考訳(メタデータ) (2024-03-05T18:08:29Z) - OtterHD: A High-Resolution Multi-modality Model [57.16481886807386]
OtterHD-8Bは、高解像度の視覚入力を粒度精度で解釈するために設計された革新的なマルチモーダルモデルである。
本研究は,大規模マルチモーダルモデルにおける柔軟性と高分解能入力能力の重要な役割を明らかにする。
論文 参考訳(メタデータ) (2023-11-07T18:59:58Z) - AttentionViz: A Global View of Transformer Attention [60.82904477362676]
本研究では,変圧器の自己保持機構を研究者が理解するための新しい可視化手法を提案する。
提案手法の背景にある主な考え方は,問合せとキーベクトルの結合埋め込みを可視化し,注意力を計算することである。
このような共同クエリキーの埋め込みに基づいて,インタラクティブな可視化ツールであるAttentionVizを開発した。
論文 参考訳(メタデータ) (2023-05-04T23:46:49Z) - Multimodal Adaptive Fusion of Face and Gait Features using Keyless
attention based Deep Neural Networks for Human Identification [67.64124512185087]
歩行のような軟式生体認証は、人物認識や再識別といった監視作業において顔に広く使われている。
本稿では,キーレス注意深層ニューラルネットワークを活用することで,歩行と顔のバイオメトリック・キューを動的に組み込むための適応型マルチバイオメトリック・フュージョン戦略を提案する。
論文 参考訳(メタデータ) (2023-03-24T05:28:35Z) - Learning to reason over visual objects [6.835410768769661]
対象物の観点から視覚シーンを処理するための汎用メカニズムが,抽象的な視覚的推論を促進するのにどの程度役立つかを検討する。
我々は、オブジェクト中心処理の帰納バイアスが抽象的な視覚的推論の鍵となることを発見した。
論文 参考訳(メタデータ) (2023-03-03T23:19:42Z) - Multi-manifold Attention for Vision Transformers [12.862540139118073]
ビジョントランスフォーマーは、いくつかのコンピュータビジョンタスクにおける最先端の性能のために、今日では非常に人気がある。
本研究では, 変圧器のバニラ自己注意の代替として, マルチマニフォールドマルチヘッドアテンションと呼ばれる新しいアテンション機構を提案する。
論文 参考訳(メタデータ) (2022-07-18T12:53:53Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - An empirical evaluation of attention-based multi-head models for
improved turbofan engine remaining useful life prediction [9.282239595143787]
シングルユニット(ヘッド)は、多変量時系列信号に基づいて訓練されたディープラーニングアーキテクチャにおける従来の入力特徴抽出器である。
この研究は、従来のシングルヘッド深層学習モデルを、コンテキスト固有のヘッドを開発することにより、より堅牢な形式に拡張する。
論文 参考訳(メタデータ) (2021-09-04T01:13:47Z) - Adaptive Multi-Resolution Attention with Linear Complexity [18.64163036371161]
本稿では,AdaMRA(Adaptive Multi-Resolution Attention)という新しい構造を提案する。
我々はマルチレゾリューション・マルチヘッド・アテンション・メカニズムを活用し、アテンションヘッドが粗い方法で長距離コンテキスト情報をキャプチャすることを可能にする。
科学コミュニティによるAdaMRAの利用を促進するため、コード実装を一般公開する予定である。
論文 参考訳(メタデータ) (2021-08-10T23:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。