論文の概要: Extract-and-Adaptation Network for 3D Interacting Hand Mesh Recovery
- arxiv url: http://arxiv.org/abs/2309.01943v1
- Date: Tue, 5 Sep 2023 04:18:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 16:21:11.310084
- Title: Extract-and-Adaptation Network for 3D Interacting Hand Mesh Recovery
- Title(参考訳): 3次元インタラクションハンドメッシュリカバリのための抽出・適応ネットワーク
- Authors: JoonKyu Park, Daniel Sungho Jung, Gyeongsik Moon, Kyoung Mu Lee
- Abstract要約: 我々は、EANet, extract-and-adaptation Network, EABlockをネットワークの主要コンポーネントとして提示する。
我々の2つの新しいトークンは、分離された2つの手の特徴の組み合わせによるものであるため、遠く離れたトークン問題に対してより堅牢である。
提案したEANetは、3Dインタラクションハンドベンチマークにおける最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 64.37035857740781
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding how two hands interact with each other is a key component of
accurate 3D interacting hand mesh recovery. However, recent Transformer-based
methods struggle to learn the interaction between two hands as they directly
utilize two hand features as input tokens, which results in distant token
problem. The distant token problem represents that input tokens are in
heterogeneous spaces, leading Transformer to fail in capturing correlation
between input tokens. Previous Transformer-based methods suffer from the
problem especially when poses of two hands are very different as they project
features from a backbone to separate left and right hand-dedicated features. We
present EANet, extract-and-adaptation network, with EABlock, the main component
of our network. Rather than directly utilizing two hand features as input
tokens, our EABlock utilizes two complementary types of novel tokens, SimToken
and JoinToken, as input tokens. Our two novel tokens are from a combination of
separated two hand features; hence, it is much more robust to the distant token
problem. Using the two type of tokens, our EABlock effectively extracts
interaction feature and adapts it to each hand. The proposed EANet achieves the
state-of-the-art performance on 3D interacting hands benchmarks. The codes are
available at https://github.com/jkpark0825/EANet.
- Abstract(参考訳): 両手の相互作用を理解することは、正確な3Dインタラクションによる手メッシュの回復の重要な要素である。
しかし、最近のトランスフォーマーベースの手法では、2つの手の特徴を直接入力トークンとして利用するため、両者の相互作用を学ぶのに苦労している。
遠いトークン問題は、入力トークンが異種空間にあることを示し、Transformerは入力トークン間の相関を捉えるのに失敗する。
従来のトランスフォーマーベースの手法では、特に2つのハンドのポーズが大きく異なり、バックボーンから左と右の別々の特徴に特徴を投影している場合、問題に苦しんでいる。
我々は、EANet, extract-and-adaptation Network, EABlockをネットワークの主要コンポーネントとして提示する。
EABlockは入力トークンとして2つの手の特徴を直接利用するのではなく、SimTokenとJoinTokenという2つの補完的なトークンを入力トークンとして利用しています。
我々の2つの新しいトークンは、分離された2つの手の特徴の組み合わせによるものであるため、遠く離れたトークン問題に対してより堅牢である。
2種類のトークンを使用することで、eablockはインタラクション機能を効果的に抽出し、それぞれに適応させます。
提案したEANetは、3Dインタラクションハンドベンチマークにおける最先端のパフォーマンスを実現する。
コードはhttps://github.com/jkpark0825/EANetで公開されている。
関連論文リスト
- OmniHands: Towards Robust 4D Hand Mesh Recovery via A Versatile Transformer [35.983309206845036]
OmniHandsは、対話型ハンドメッシュを回復するための普遍的なアプローチであり、モノクラーまたはマルチビュー入力からの相対的な動きを示す。
我々は,新しいトークン化とコンテキスト的特徴融合戦略を備えたユニバーサルアーキテクチャを開発する。
提案手法の有効性を,いくつかのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2024-05-30T17:59:02Z) - LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - Loss Masking Is Not Needed in Decoder-only Transformer for
Discrete-token-based ASR [58.136778669618096]
統一音声テキストモデルは、様々な音声タスクにおいて顕著な性能を達成した。
テキストに似た自己回帰的な方法で音声トークンをモデル化することを提案する。
入力音声トークンに従来のクロスエントロピー損失を適用することは、ASRの性能を常に向上させるものではない。
論文 参考訳(メタデータ) (2023-11-08T08:45:14Z) - Explaining Interactions Between Text Spans [50.70253702800355]
入力の異なる部分からのトークンのスパンに対する推論は、自然言語理解に不可欠である。
NLUタスク2つのタスク(NLIとFC)に対する人間間相互作用の説明データセットであるSpanExを紹介する。
次に,複数の微調整された大言語モデルの決定過程を,スパン間の相互接続の観点から検討する。
論文 参考訳(メタデータ) (2023-10-20T13:52:37Z) - Dynamic Token-Pass Transformers for Semantic Segmentation [22.673910995773262]
セマンティックセグメンテーションのための動的トークン・パス・ビジョン・トランスフォーマー(DoViT)を導入する。
DoViTは、部分的に簡単なトークンを自己注意計算から徐々に停止させ、停止基準を満たすまでハードトークンを前進させ続ける。
提案手法は, 約40%$sim$ 60% FLOPsを低減し, mIoUの低下は, 各種セグメンテーション変圧器の0.8%以内である。
論文 参考訳(メタデータ) (2023-08-03T06:14:24Z) - How can objects help action recognition? [74.29564964727813]
より優れたビデオモデルを設計するために、オブジェクトの知識をどのように利用できるかを検討する。
まず,入力トークンの少数の保持が可能なオブジェクト誘導型トークンサンプリング戦略を提案する。
第二に、オブジェクト情報で特徴表現を豊かにするオブジェクト認識アテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-06-20T17:56:16Z) - Robustifying Token Attention for Vision Transformers [72.07710236246285]
ビジョントランスフォーマー(ViT)は、一般的な汚職の存在下でも精度が著しく低下している。
本稿では,2つの一般的な手法を用いて,より注意を安定させる2つの手法を提案する。
まず,Token-Aware Average Pooling (TAP)モジュールは,各トークンの局所的近傍に注意機構に参加することを奨励する。
第二に、出力トークンは、ほんの少しだけに集中するのではなく、多様な入力トークンの集合から情報を集約するように強制する。
論文 参考訳(メタデータ) (2023-03-20T14:04:40Z) - Compound Tokens: Channel Fusion for Vision-Language Representation
Learning [36.19486792701684]
質問応答タスクに視覚・言語表現を融合させる効果的な方法を提案する。
チャネルを融合させることで、標準的な方法と比較してトークンを効果的に整列させることができる。
オープン語彙設定において,エンド・ツー・エンドで訓練されたエンコーダ・デコーダ・ビジョン言語モデルを用いて複合トークンの有効性を示す。
論文 参考訳(メタデータ) (2022-12-02T21:09:52Z) - SWAT: Spatial Structure Within and Among Tokens [53.525469741515884]
我々は,トークン化時に空間構造が保存される場合,モデルが顕著な利得が得られることを論じる。
本研究では,(1)構造認識のトークン化と(2)構造認識のミキシングという2つの重要なコントリビューションを提案する。
論文 参考訳(メタデータ) (2021-11-26T18:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。