論文の概要: ES-MVSNet: Efficient Framework for End-to-end Self-supervised Multi-View
Stereo
- arxiv url: http://arxiv.org/abs/2308.02191v1
- Date: Fri, 4 Aug 2023 08:16:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 13:31:11.021254
- Title: ES-MVSNet: Efficient Framework for End-to-end Self-supervised Multi-View
Stereo
- Title(参考訳): ES-MVSNet: エンドツーエンドのマルチビューステレオのための効率的なフレームワーク
- Authors: Qiang Zhou, Chaohui Yu, Jingliang Li, Yuang Liu, Jing Wang, Zhibin
Wang
- Abstract要約: 本研究では、ES-MVSNetと呼ばれるエンドツーエンドのMVSのための効率的なフレームワークを提案する。
モデル性能を損なうことなくメモリ使用量を43%削減するメモリ効率アーキテクチャを提案する。
非対称なビュー選択ポリシーと領域認識深度整合性の設計により、新たな整合性信号のサードパーティモデルに頼ることなく、E2E自己監督型MVS手法の最先端性能を実現する。
- 参考スコア(独自算出の注目度): 11.41432976633312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compared to the multi-stage self-supervised multi-view stereo (MVS) method,
the end-to-end (E2E) approach has received more attention due to its concise
and efficient training pipeline. Recent E2E self-supervised MVS approaches have
integrated third-party models (such as optical flow models, semantic
segmentation models, NeRF models, etc.) to provide additional consistency
constraints, which grows GPU memory consumption and complicates the model's
structure and training pipeline. In this work, we propose an efficient
framework for end-to-end self-supervised MVS, dubbed ES-MVSNet. To alleviate
the high memory consumption of current E2E self-supervised MVS frameworks, we
present a memory-efficient architecture that reduces memory usage by 43%
without compromising model performance. Furthermore, with the novel design of
asymmetric view selection policy and region-aware depth consistency, we achieve
state-of-the-art performance among E2E self-supervised MVS methods, without
relying on third-party models for additional consistency signals. Extensive
experiments on DTU and Tanks&Temples benchmarks demonstrate that the proposed
ES-MVSNet approach achieves state-of-the-art performance among E2E
self-supervised MVS methods and competitive performance to many supervised and
multi-stage self-supervised methods.
- Abstract(参考訳): 多段自己監督型マルチビューステレオ (MVS) 法と比較して, 高精度かつ効率的なトレーニングパイプラインにより, エンドツーエンド (E2E) アプローチが注目されている。
最近のE2E自己監督型MVSアプローチでは、サードパーティモデル(光学フローモデル、セマンティックセグメンテーションモデル、NeRFモデルなど)を統合して、さらなる一貫性の制約を提供し、GPUメモリの消費を増大させ、モデルの構造とトレーニングパイプラインを複雑化する。
本研究では、ES-MVSNetと呼ばれるエンドツーエンドのMVSのための効率的なフレームワークを提案する。
e2e自己教師付きmvsフレームワークの高メモリ消費を緩和するために、モデル性能を損なうことなくメモリ使用量を43%削減するメモリ効率の高いアーキテクチャを提案する。
さらに、非対称なビュー選択ポリシーと領域認識深度整合性の設計により、新たな整合性信号に対するサードパーティモデルに頼ることなく、E2E自己監督型MVS手法の最先端性能を実現する。
DTU と Tanks&Temples ベンチマークの大規模な実験により、ES-MVSNet の手法は、E2E の自己監督型 MVS 手法の最先端性能と、多数の教師付きおよび多段階の自己監督型手法の競合性能を実現することを示した。
関連論文リスト
- A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - ATOM: Asynchronous Training of Massive Models for Deep Learning in a Decentralized Environment [7.916080032572087]
Atomは、分散化された環境で巨大なモデルの非同期トレーニング用に設計された、レジリエントな分散トレーニングフレームワークである。
atomは、スワップをシームレスにモデルし、トレーニングスループットを最適化するために複数のコピーを同時にトレーニングすることで、1つのホスト(ピア)に完全なLLMを適合させることを目的としている。
異なるGPT-3モデル構成を用いて実験したところ、最適ネットワーク接続のシナリオでは、原子は最先端の分散パイプライン並列化アプローチを組み込んだ場合、トレーニング効率を最大20倍に向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:43:43Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [27.930351465266515]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。
MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。
様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-01-29T08:13:40Z) - LCV2: An Efficient Pretraining-Free Framework for Grounded Visual Question Answering [6.263815658578159]
LCV2モジュラー法は視覚言語マルチモーダル領域におけるグラウンドド視覚質問応答タスクに対して提案される。
このアプローチは、市販のVQAモデルと市販のビジュアルグラウンド(VG)モデルの間の中間メディエータとして、凍結した大言語モデル(LLM)に依存している。
このフレームワークは、低計算リソース下でのVQAグラウンディングタスクにデプロイすることができる。
論文 参考訳(メタデータ) (2024-01-29T02:32:25Z) - MVSFormer++: Revealing the Devil in Transformer's Details for Multi-View
Stereo [60.75684891484619]
我々は、MVSパイプラインの様々なコンポーネントを強化するために、注意の特性を最大化するMVSFormer++を紹介する。
特徴エンコーダとコスト容積正規化には異なる注意機構を用い,それぞれ特徴量と空間的アグリゲーションに着目した。
DTU, タンク・アンド・テンプル, BlendedMVS, ETH3Dの総合的な実験により, 提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-01-22T03:22:49Z) - EMR-MSF: Self-Supervised Recurrent Monocular Scene Flow Exploiting
Ego-Motion Rigidity [13.02735046166494]
自己監督型単分子シーンフロー推定は、単純で経済的なセンサーの設置に注目が集まっている。
本稿では,教師あり学習の範囲内でのネットワークアーキテクチャ設計の利点を活かして,EMR-MSFという優れたモデルを提案する。
KITTIのシーンフローベンチマークでは,最先端の自己監督単分子法のSF-all測定値が44%向上した。
論文 参考訳(メタデータ) (2023-09-04T00:30:06Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - Digging into Uncertainty in Self-supervised Multi-view Stereo [57.04768354383339]
自己教師型学習のための新しいuncertainty reduction Multi-view Stereo(UMVS)フレームワークを提案する。
我々のフレームワークは、教師なしのMVSメソッドの中で最高のパフォーマンスを達成し、教師なしの対戦相手と競合する性能を実現している。
論文 参考訳(メタデータ) (2021-08-30T02:53:08Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。