論文の概要: D^2Conv3D: Dynamic Dilated Convolutions for Object Segmentation in
Videos
- arxiv url: http://arxiv.org/abs/2111.07774v1
- Date: Mon, 15 Nov 2021 14:15:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 16:10:35.240180
- Title: D^2Conv3D: Dynamic Dilated Convolutions for Object Segmentation in
Videos
- Title(参考訳): D^2Conv3D:ビデオにおけるオブジェクトセグメンテーションのための動的拡張畳み込み
- Authors: Christian Schmidt, Ali Athar, Sabarinath Mahadevan, Bastian Leibe
- Abstract要約: 動的拡張畳み込み(D2Conv3D: Dynamic Dilated Convolutions: D2Conv3D): 拡張可能な畳み込みからインスピレーションを得て、3Dドメインに拡張する新しいタイプの畳み込みを提案する。
D2Conv3Dは,複数のビデオセグメンテーション関連ベンチマークを用いて,複数の3次元CNNアーキテクチャの性能向上に有効であることを示す。
- 参考スコア(独自算出の注目度): 24.3722621395592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite receiving significant attention from the research community, the task
of segmenting and tracking objects in monocular videos still has much room for
improvement. Existing works have simultaneously justified the efficacy of
dilated and deformable convolutions for various image-level segmentation tasks.
This gives reason to believe that 3D extensions of such convolutions should
also yield performance improvements for video-level segmentation tasks.
However, this aspect has not yet been explored thoroughly in existing
literature. In this paper, we propose Dynamic Dilated Convolutions (D^2Conv3D):
a novel type of convolution which draws inspiration from dilated and deformable
convolutions and extends them to the 3D (spatio-temporal) domain. We
experimentally show that D^2Conv3D can be used to improve the performance of
multiple 3D CNN architectures across multiple video segmentation related
benchmarks by simply employing D^2Conv3D as a drop-in replacement for standard
convolutions. We further show that D^2Conv3D out-performs trivial extensions of
existing dilated and deformable convolutions to 3D. Lastly, we set a new
state-of-the-art on the DAVIS 2016 Unsupervised Video Object Segmentation
benchmark. Code is made publicly available at
https://github.com/Schmiddo/d2conv3d .
- Abstract(参考訳): 研究コミュニティから大きな注目を集めたにもかかわらず、モノクロビデオにおけるオブジェクトのセグメンテーションと追跡のタスクには、まだ改善の余地がたくさんある。
既存の作業は、様々な画像レベルのセグメンテーションタスクに対する拡張および変形可能な畳み込みの有効性を同時に正当化している。
これは、このような畳み込みの3D拡張が、ビデオレベルのセグメンテーションタスクのパフォーマンス改善をもたらすと信じる理由である。
しかし、この側面は現存する文献ではまだ徹底的に研究されていない。
本稿では,動的拡張畳み込み(d^2conv3d):拡張および変形可能な畳み込みからインスピレーションを得て,それらを3次元(spatio-temporal)領域に拡張する新しい畳み込み方式を提案する。
d^2conv3dを標準畳み込みの代替として用いることにより,複数のビデオセグメンテーション関連ベンチマークにおいて,複数の3d cnnアーキテクチャの性能向上にd^2conv3dが有効であることを示す。
さらに、D^2Conv3Dは既存の拡張型および変形可能な3D畳み込みの自明な拡張を出力することを示した。
最後に、DAVIS 2016 Unsupervised Video Object Segmentationベンチマークに新しい最先端技術を設定した。
コードはhttps://github.com/Schmiddo/d2conv3dで公開されている。
関連論文リスト
- DCSEG: Decoupled 3D Open-Set Segmentation using Gaussian Splatting [0.0]
オープンセット3Dセグメンテーションは、下流ロボティクスと拡張現実/バーチャルリアリティーアプリケーションにとって大きな関心事である。
本稿では,新しい3次元表現とセマンティックセグメンテーション基盤モデルに対するモジュラリティと適応性を確保するために,分離された3次元セグメンテーションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-12-14T21:26:44Z) - SAM-guided Graph Cut for 3D Instance Segmentation [60.75119991853605]
本稿では,3次元画像情報と多視点画像情報の同時利用による3次元インスタンス分割の課題に対処する。
本稿では,3次元インスタンスセグメンテーションのための2次元セグメンテーションモデルを効果的に活用する新しい3D-to-2Dクエリフレームワークを提案する。
本手法は,ロバストなセグメンテーション性能を実現し,異なるタイプのシーンにまたがる一般化を実現する。
論文 参考訳(メタデータ) (2023-12-13T18:59:58Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Spatiotemporal Dilated Convolution with Uncertain Matching for
Video-based Crowd Estimation [23.635537663234174]
コンバルネットワークに基づくクラウドカウント問題に対処するためのテンポラルネットワーク(STDNet)。
3Dおよび3D拡張ビデオコンボリューションの分解を利用して、高密度ビデオコンボリューションを強化する。
パッチワイド・レグレッション・ロス(PRL)は、元のピクセルワイド・ロス結果を改善する。
論文 参考訳(メタデータ) (2021-01-29T07:21:33Z) - 2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video
Recognition [84.697097472401]
Ada3Dは、インスタンス固有の3D利用ポリシーを学び、3Dネットワークで使用するフレームと畳み込み層を決定する条件付き計算フレームワークです。
本手法は,最先端の3dモデルと同様の精度を実現し,異なるデータセット間での計算量を20%-50%削減できることを実証する。
論文 参考訳(メタデータ) (2020-12-29T21:40:38Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - Appearance-Preserving 3D Convolution for Video-based Person
Re-identification [61.677153482995564]
本稿では,APM (Appearance-Preserving Module) と3Dコンボリューションカーネルの2つのコンポーネントからなる3Dコンボリューション(AP3D)を提案する。
元の3D畳み込みカーネルをAP3Dに置き換えることで、AP3Dと既存の3D ConvNetを組み合わせることは容易である。
論文 参考訳(メタデータ) (2020-07-16T16:21:34Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。