論文の概要: Explainable 3D Convolutional Neural Networks by Learning Temporal
Transformations
- arxiv url: http://arxiv.org/abs/2006.15983v1
- Date: Mon, 29 Jun 2020 12:29:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 13:19:27.057847
- Title: Explainable 3D Convolutional Neural Networks by Learning Temporal
Transformations
- Title(参考訳): 時間変化学習による3次元畳み込みニューラルネットワーク
- Authors: Gabri\"elle Ras, Luca Ambrogioni, Pim Haselager, Marcel A.J. van
Gerven, Umut G\"u\c{c}l\"u
- Abstract要約: 時間分解型3D畳み込み(3TConv)を通常の3D畳み込み(3DConv)の解釈可能な代替として導入する。
3TConvでは、2Dフィルタと時間変換パラメータのセットを学習して3D畳み込みフィルタを得る。
3TConvは直接解釈可能な時間変換を学習することを示した。
- 参考スコア(独自算出の注目度): 6.477885112149906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we introduce the temporally factorized 3D convolution (3TConv)
as an interpretable alternative to the regular 3D convolution (3DConv). In a
3TConv the 3D convolutional filter is obtained by learning a 2D filter and a
set of temporal transformation parameters, resulting in a sparse filter where
the 2D slices are sequentially dependent on each other in the temporal
dimension. We demonstrate that 3TConv learns temporal transformations that
afford a direct interpretation. The temporal parameters can be used in
combination with various existing 2D visualization methods. We also show that
insight about what the model learns can be achieved by analyzing the
transformation parameter statistics on a layer and model level. Finally, we
implicitly demonstrate that, in popular ConvNets, the 2DConv can be replaced
with a 3TConv and that the weights can be transferred to yield pretrained
3TConvs. pretrained 3TConvnets leverage more than a decade of work on
traditional 2DConvNets by being able to make use of features that have been
proven to deliver excellent results on image classification benchmarks.
- Abstract(参考訳): 本稿では、時間分解型3D畳み込み(3TConv)を通常の3D畳み込み(3DConv)の解釈可能な代替として紹介する。
3TConvでは、2Dフィルタと一連の時間変換パラメータを学習して3D畳み込みフィルタを得る。
3TConvは直接解釈可能な時間変換を学習することを示した。
時間的パラメータは、既存の様々な2次元可視化手法と組み合わせて使用できる。
また,モデルレベルでの変換パラメータ統計を解析することにより,モデルが何を学習するかについての洞察が得られることを示した。
最後に、人気のあるConvNetsでは、2DConvを3TConvに置き換えることができ、重みを事前に訓練された3TConvに変換することができることを暗黙的に示す。
事前トレーニングされた3TConvnetは、イメージ分類ベンチマークで優れた結果をもたらすことが証明された機能を利用することで、従来の2DConvNetでの10年以上の作業を活用する。
関連論文リスト
- Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - The Devils in the Point Clouds: Studying the Robustness of Point Cloud
Convolutions [15.997907568429177]
本稿では,点群上の畳み込みネットワークであるPointConvの異なる変種を調査し,入力スケールと回転変化に対する堅牢性を検討する。
3次元幾何学的性質をpointconvへの入力として利用し,新しい視点不変ディスクリプタを導出する。
2D MNIST & CIFAR-10データセットと3D Semantic KITTI & ScanNetデータセットで実験が行われた。
論文 参考訳(メタデータ) (2021-01-19T19:32:38Z) - 2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video
Recognition [84.697097472401]
Ada3Dは、インスタンス固有の3D利用ポリシーを学び、3Dネットワークで使用するフレームと畳み込み層を決定する条件付き計算フレームワークです。
本手法は,最先端の3dモデルと同様の精度を実現し,異なるデータセット間での計算量を20%-50%削減できることを実証する。
論文 参考訳(メタデータ) (2020-12-29T21:40:38Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - Learning Local Neighboring Structure for Robust 3D Shape Representation [143.15904669246697]
3Dメッシュの表現学習は多くのコンピュータビジョンやグラフィックスアプリケーションにおいて重要である。
局所構造認識型異方性畳み込み操作(LSA-Conv)を提案する。
本モデルでは,3次元形状復元において最先端の手法に比べて顕著な改善が得られた。
論文 参考訳(メタデータ) (2020-04-21T13:40:03Z) - Anisotropic Convolutional Networks for 3D Semantic Scene Completion [24.9671648682339]
セマンティックシーン補完(SSC)は、単一の深さおよび/またはRGB画像からシーンの占有度とセマンティックラベルを同時に推測しようとする。
異方性畳み込みと呼ばれる新しいモジュールを提案する。
固定された3次元受容場に制限される標準的な3次元畳み込みとは対照的に、我々のモジュールは次元異方性ボクセルを賢明にモデル化することができる。
論文 参考訳(メタデータ) (2020-04-05T07:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。