論文の概要: Feature Visualization in 3D Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2505.07387v1
- Date: Mon, 12 May 2025 09:31:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.337041
- Title: Feature Visualization in 3D Convolutional Neural Networks
- Title(参考訳): 3次元畳み込みニューラルネットワークにおける特徴可視化
- Authors: Chunpeng Li, Ya-tang Li,
- Abstract要約: 本稿では, 3次元畳み込みカーネルのテクスチャや動きの好みを乱す新しい可視化手法を提案する。
いくつかの事前訓練されたモデルの様々な深さでカーネルを視覚化するアプローチを適用すると、その結果の可視化(特にモーションキャプチャー)が、3Dカーネルによって符号化された好みの動的パターンを明確にする。
- 参考スコア(独自算出の注目度): 1.3154296174423619
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding the computations of convolutional neural networks requires effective visualization of their kernels. While maximal activation methods have proven successful in highlighting the preferred features of 2D convolutional kernels, directly applying these techniques to 3D convolutions often leads to uninterpretable results due to the higher dimensionality and complexity of 3D features. To address this challenge, we propose a novel visualization approach for 3D convolutional kernels that disentangles their texture and motion preferences. Our method begins with a data-driven decomposition of the optimal input that maximally activates a given kernel. We then introduce a two-stage optimization strategy to extract distinct texture and motion components from this input. Applying our approach to visualize kernels at various depths of several pre-trained models, we find that the resulting visualizations--particularly those capturing motion--clearly reveal the preferred dynamic patterns encoded by 3D kernels. These results demonstrate the effectiveness of our method in providing interpretable insights into 3D convolutional operations. Code is available at https://github.com/YatangLiLab/3DKernelVisualizer.
- Abstract(参考訳): 畳み込みニューラルネットワークの計算を理解するには、カーネルを効果的に視覚化する必要がある。
最大活性化法は、2次元畳み込みカーネルの望ましい特徴を強調することに成功しているが、これらの技術を3次元畳み込みに直接適用すると、次元性や複雑さが高くなるため、しばしば解釈不可能な結果をもたらす。
この課題に対処するために, 3次元畳み込みカーネルのテクスチャや動きの好みを乱す新しい可視化手法を提案する。
我々の手法は、与えられたカーネルを最大に活性化する最適な入力をデータ駆動で分解することから始まる。
次に,この入力から異なるテクスチャや動き成分を抽出する2段階最適化手法を提案する。
いくつかの事前訓練されたモデルの様々な深さでカーネルを視覚化するアプローチを適用すると、その結果の可視化(特にモーションキャプチャー)が、3Dカーネルによって符号化された好みの動的パターンを明確にする。
これらの結果は,3次元畳み込み操作に対する解釈可能な洞察を提供する上で,本手法の有効性を示すものである。
コードはhttps://github.com/YatangLiLab/3DKernelVisualizerで入手できる。
関連論文リスト
- DINeMo: Learning Neural Mesh Models with no 3D Annotations [7.21992608540601]
カテゴリーレベルの3D/6Dポーズ推定は、総合的な3Dシーン理解に向けた重要なステップである。
最近の研究は、分析バイシンセサイザーの観点から、2Dおよび3Dタスクにアプローチするニューラルネットワークモデルについて検討している。
疑似対応を利用して3次元アノテーションを使わずにトレーニングした新しいニューラルネットワークモデルであるDINeMoを提案する。
論文 参考訳(メタデータ) (2025-03-26T04:23:53Z) - EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - LinPrim: Linear Primitives for Differentiable Volumetric Rendering [53.780682194322225]
線形プリミティブに基づく2つの新しいシーン表現を導入する。
我々はGPU上で効率的に動作する異なるオクタライザを提案する。
我々は最先端の手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2025-01-27T18:49:38Z) - Occupancy-Based Dual Contouring [12.944046673902415]
本稿では,2重畳み込み方式を提案する。
本手法は,GPU並列化を最大化するために,学習不要かつ慎重に設計されている。
論文 参考訳(メタデータ) (2024-09-20T11:32:21Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - GIR: 3D Gaussian Inverse Rendering for Relightable Scene Factorization [62.13932669494098]
本稿では,3次元ガウス表現を用いた3次元ガウス逆レンダリング(GIR)手法を提案する。
最短固有ベクトルを用いて各3次元ガウスの正規性を計算する。
我々は3次元ガウシアン毎に方向対応の放射光を格納し、多重バウンス光輸送を近似するために二次照明をアンタングルするために、効率的なボクセルベースの間接照明追跡方式を採用する。
論文 参考訳(メタデータ) (2023-12-08T16:05:15Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - Dual Octree Graph Networks for Learning Adaptive Volumetric Shape
Representations [21.59311861556396]
本手法は,3次元形状の体積場を,オクツリーによって構成された適応的特徴量で符号化する。
エンコーダ・デコーダネットワークは、オクツリーノードの二重グラフ上のグラフ畳み込みに基づいて、適応的な特徴量を学ぶように設計されている。
提案手法は, 形状詳細を効果的に符号化し, 高速な3次元形状復元を可能にし, 訓練カテゴリから3次元形状をモデル化するための優れた汎用性を示す。
論文 参考訳(メタデータ) (2022-05-05T17:56:34Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。