論文の概要: UMIFormer: Mining the Correlations between Similar Tokens for Multi-View
3D Reconstruction
- arxiv url: http://arxiv.org/abs/2302.13987v1
- Date: Mon, 27 Feb 2023 17:27:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 14:43:29.601617
- Title: UMIFormer: Mining the Correlations between Similar Tokens for Multi-View
3D Reconstruction
- Title(参考訳): UMIFormer:マルチビュー3次元再構成のための類似トークン間の相関関係のマイニング
- Authors: Zhenwei Zhu, Liying Yang, Ning Li, Chaohao Jiang, Yanyan Liang
- Abstract要約: 非順序多重画像(UMIFormer)のための新しいトランスフォーマネットワークを提案する。
これは、切り離されたビュー内エンコーディングのためのトランスフォーマーブロックと、トークンの修正のために設計されたブロックを利用する。
様々な分岐から取得した全てのトークンは、固定サイズのコンパクト表現に圧縮される。
- 参考スコア(独自算出の注目度): 6.655023772971832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, many video tasks have achieved breakthroughs by utilizing
the vision transformer and establishing spatial-temporal decoupling for feature
extraction. Although multi-view 3D reconstruction also faces multiple images as
input, it cannot immediately inherit their success due to completely ambiguous
associations between unordered views. There is not usable prior relationship,
which is similar to the temporally-coherence property in a video. To solve this
problem, we propose a novel transformer network for Unordered Multiple Images
(UMIFormer). It exploits transformer blocks for decoupled intra-view encoding
and designed blocks for token rectification that mine the correlation between
similar tokens from different views to achieve decoupled inter-view encoding.
Afterward, all tokens acquired from various branches are compressed into a
fixed-size compact representation while preserving rich information for
reconstruction by leveraging the similarities between tokens. We empirically
demonstrate on ShapeNet and confirm that our decoupled learning method is
adaptable for unordered multiple images. Meanwhile, the experiments also verify
our model outperforms existing SOTA methods by a large margin.
- Abstract(参考訳): 近年,視覚トランスフォーマーの活用や特徴抽出のための空間的時間的デカップリングの確立により,多くの映像タスクがブレークスルーを遂げている。
マルチビュー3D再構成も複数のイメージを入力として扱うが,非秩序なビュー間の完全にあいまいな関連性のため,すぐには成功を継承できない。
ビデオの時間的コヒーレンス特性に類似した、事前の関係は使用できない。
そこで本稿では,未注文多重画像(umiformer)のためのトランスフォーマネットワークを提案する。
トランスフォーマーブロックをデカップリングされたビュー内エンコーディングに活用し、異なるビューからの類似トークン間の相関をマイニングして、デカップリングされたビュー間エンコーディングを実現するためにデザインされたブロックを使用する。
その後、各分岐から取得した全てのトークンを固定サイズのコンパクト表現に圧縮し、トークン間の類似性を活用して再構成のための豊富な情報を保存する。
実験によりshapenetを実演し,無順序複数の画像に対して分離学習法が適応可能であることを確認した。
一方,実験では,既存のSOTA法よりも大きなマージンで優れていることも確認した。
関連論文リスト
- Efficient Long Video Tokenization via Coordinate-based Patch Reconstruction [93.69757398746017]
CoordTokは、座標ベースの表現から入力ビデオの対応するパッチへのマッピングを学ぶビデオトークンである。
CoordTokは、ビデオを分解された三面体表現にエンコードし、ランダムにサンプリングされた$(x,y,t)$座標に対応するパッチを再構築する。
論文 参考訳(メタデータ) (2024-11-22T06:50:44Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - Multi-entity Video Transformers for Fine-Grained Video Representation
Learning [36.31020249963468]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。
我々の自己監督手法の健全な側面は、時間的パイプラインにおける空間情報の統合の改善である。
我々のMV-Former(Multi-entity Video Transformer)アーキテクチャは、複数のきめ細かいビデオベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-17T21:23:12Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - Long-Range Grouping Transformer for Multi-View 3D Reconstruction [9.2709012704338]
配当原理に基づくLGA(Long-range Grouping attention)を提案する。
ビュー間特徴を接続する効率的かつ効率的なエンコーダを確立することができる。
プログレッシブ・アップサンプリング・デコーダは比較的高解像度のボクセル生成のために設計された。
論文 参考訳(メタデータ) (2023-08-17T01:34:59Z) - Not All Tokens Are Equal: Human-centric Visual Analysis via Token
Clustering Transformer [91.49837514935051]
我々はToken Clustering Transformer(TCFormer)と呼ばれる新しいビジョントランスを提案する。
TCTCerはトークンをプログレッシブクラスタリングによってマージし、トークンはフレキシブルな形状とサイズで異なる場所からマージすることができる。
実験によると、TCFormerは人間中心のさまざまなタスクやデータセットにおいて、一貫してその能力を上回っている。
論文 参考訳(メタデータ) (2022-04-19T05:38:16Z) - SWAT: Spatial Structure Within and Among Tokens [53.525469741515884]
我々は,トークン化時に空間構造が保存される場合,モデルが顕著な利得が得られることを論じる。
本研究では,(1)構造認識のトークン化と(2)構造認識のミキシングという2つの重要なコントリビューションを提案する。
論文 参考訳(メタデータ) (2021-11-26T18:59:38Z) - Improving Visual Quality of Image Synthesis by A Token-based Generator
with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。
提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2021-11-05T12:57:50Z) - LegoFormer: Transformers for Block-by-Block Multi-view 3D Reconstruction [45.16128577837725]
現代のディープラーニングベースの多視点3D再構成技術のほとんどは、RNNまたは融合モジュールを使用して、エンコード後の複数の画像からの情報を組み合わせている。
我々は, 1 つのフレームワークでオブジェクト再構成を統一し, その分解因子によって再構成された占有グリッドをパラメータ化する, トランスフォーマーベースのモデルである LegoFormer を提案する。
論文 参考訳(メタデータ) (2021-06-23T00:15:08Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。