論文の概要: QORT-Former: Query-optimized Real-time Transformer for Understanding Two Hands Manipulating Objects
- arxiv url: http://arxiv.org/abs/2502.19769v1
- Date: Thu, 27 Feb 2025 05:12:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:57:41.570168
- Title: QORT-Former: Query-optimized Real-time Transformer for Understanding Two Hands Manipulating Objects
- Title(参考訳): QORT-Former: 2つのハンド操作対象を理解するためのクエリ最適化リアルタイムトランス
- Authors: Elkhan Ismayilzada, MD Khalequzzaman Chowdhury Sayem, Yihalem Yimolal Tiruneh, Mubarrat Tajoar Chowdhury, Muhammadjon Boboev, Seungryul Baek,
- Abstract要約: 本稿では,2つの手とオブジェクトの3次元ポーズ推定のためのクエリ最適化リアルタイムフレームワークを提案する。
我々は,市販のアクション認識モジュールとリアルタイムの効率を維持しながら,インタラクション認識の最先端を定めている。
- 参考スコア(独自算出の注目度): 3.4415371836219757
- License:
- Abstract: Significant advancements have been achieved in the realm of understanding poses and interactions of two hands manipulating an object. The emergence of augmented reality (AR) and virtual reality (VR) technologies has heightened the demand for real-time performance in these applications. However, current state-of-the-art models often exhibit promising results at the expense of substantial computational overhead. In this paper, we present a query-optimized real-time Transformer (QORT-Former), the first Transformer-based real-time framework for 3D pose estimation of two hands and an object. We first limit the number of queries and decoders to meet the efficiency requirement. Given limited number of queries and decoders, we propose to optimize queries which are taken as input to the Transformer decoder, to secure better accuracy: (1) we propose to divide queries into three types (a left hand query, a right hand query and an object query) and enhance query features (2) by using the contact information between hands and an object and (3) by using three-step update of enhanced image and query features with respect to one another. With proposed methods, we achieved real-time pose estimation performance using just 108 queries and 1 decoder (53.5 FPS on an RTX 3090TI GPU). Surpassing state-of-the-art results on the H2O dataset by 17.6% (left hand), 22.8% (right hand), and 27.2% (object), as well as on the FPHA dataset by 5.3% (right hand) and 10.4% (object), our method excels in accuracy. Additionally, it sets the state-of-the-art in interaction recognition, maintaining real-time efficiency with an off-the-shelf action recognition module.
- Abstract(参考訳): 物体を操作する両手のポーズと相互作用の領域において、重要な進歩が達成されている。
拡張現実(AR)と仮想現実(VR)技術の出現により、これらのアプリケーションにおけるリアルタイムパフォーマンスの需要が高まった。
しかし、現在の最先端モデルは、かなりの計算オーバーヘッドを犠牲にして、しばしば有望な結果を示す。
本稿では,2つの手とオブジェクトの3次元ポーズ推定のための最初のトランスフォーマーベースのリアルタイムフレームワークであるクエリ最適化リアルタイムトランスフォーマー(QORT-Former)を提案する。
まず、効率の要求を満たすためにクエリとデコーダの数を制限します。
本稿では,トランスフォーマーデコーダに入力されるクエリを最適化し,精度を高めることを提案する。(1) クエリを3つのタイプ(左手クエリ,右手クエリ,オブジェクトクエリ)に分割し,(2) 手とオブジェクトの接触情報を用いてクエリ機能を強化する。
提案手法により,RTX 3090TI GPU上での108クエリと1デコーダ(53.5 FPS)を用いてリアルタイムポーズ推定性能を実現した。
H2Oデータセットの最先端結果を17.6%(左手)、22.8%(右手)、27.2%(オブジェクト)、FPHAデータセットの5.3%(右手)、10.4%(オブジェクト)に超過することで、精度が向上する。
さらに、インタラクション認識の最先端を設定し、オフザシェルフアクション認識モジュールでリアルタイムの効率を維持する。
関連論文リスト
- REACT: Real-time Efficiency and Accuracy Compromise for Tradeoffs in Scene Graph Generation [1.3936983888175871]
SGG(Scene Graph Generation)は、画像内のオブジェクト間の視覚的関係をグラフ構造としてエンコードする。
現在の手法では,(1)関係予測の精度の向上,(2)対象検出の精度の向上,(3)3つの目標を同時にバランスさせることを目標とせず,遅延の低減に重点を置いている。
提案手法であるREACTモデルは,既存のSGGモデルの中で最も高い推論速度を実現し,関係予測性能を犠牲にすることなくオブジェクト検出精度を向上させる。
論文 参考訳(メタデータ) (2024-05-25T08:06:12Z) - A Simple Baseline for Efficient Hand Mesh Reconstruction [9.704302427105187]
3次元手ポーズ推定はジェスチャー認識や人間と機械のインタラクションタスクといった分野に広く応用されている。
本稿では,最新技術(SOTA)法を超越した,単純で効果的なベースラインを提案するが,計算効率も示す。
論文 参考訳(メタデータ) (2024-03-04T08:00:20Z) - Improving Text Matching in E-Commerce Search with A Rationalizable,
Intervenable and Fast Entity-Based Relevance Model [78.80174696043021]
エンティティベース関連モデル(EBRM)と呼ばれる新しいモデルを提案する。
この分解により、高精度にクロスエンコーダQE関連モジュールを使用できる。
また、ユーザログから自動生成されたQEデータによるQEモジュールの事前トレーニングにより、全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-07-01T15:44:53Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - TransVOD: End-to-end Video Object Detection with Spatial-Temporal
Transformers [96.981282736404]
時空間トランスフォーマアーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。
提案した TransVOD++ は,90.0% mAP の ImageNet VID の精度で,最先端のレコードを新たに設定する。
提案したTransVOD Liteは,約30FPSで動作する場合に,83.7%のmAPで最高の速度と精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-01-13T16:17:34Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - Optimizing Inference Performance of Transformers on CPUs [0.0]
トランスフォーマーベースのモデル(BERTなど)は、検索、翻訳、質問応答など、多くの重要なWebサービスを支えている。
本稿では,cpu上でのトランスフォーマモデル参照のスケーラビリティと性能に関する実証分析を行う。
論文 参考訳(メタデータ) (2021-02-12T17:01:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。