論文の概要: Spatial-temporal Concept based Explanation of 3D ConvNets
- arxiv url: http://arxiv.org/abs/2206.05275v1
- Date: Thu, 9 Jun 2022 08:04:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-19 19:08:01.678777
- Title: Spatial-temporal Concept based Explanation of 3D ConvNets
- Title(参考訳): 時空間概念に基づく3次元ConvNetの表現
- Authors: Ying Ji, Yu Wang, Kensaku Mori, Jien Kato
- Abstract要約: 本稿では,3D ConvNet を解釈するための3D ACE (Automatic Concept-based Explanation) フレームワークを提案する。
提案手法では,ビデオは高レベルなスーパーボクセルを用いて表現される。
実験により,本手法は異なる重要度の空間的時間的概念を発見できることが示された。
- 参考スコア(独自算出の注目度): 5.461115214431218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have achieved outstanding success in explaining 2D image
recognition ConvNets. On the other hand, due to the computation cost and
complexity of video data, the explanation of 3D video recognition ConvNets is
relatively less studied. In this paper, we present a 3D ACE (Automatic
Concept-based Explanation) framework for interpreting 3D ConvNets. In our
approach: (1) videos are represented using high-level supervoxels, which is
straightforward for human to understand; and (2) the interpreting framework
estimates a score for each voxel, which reflects its importance in the decision
procedure. Experiments show that our method can discover spatial-temporal
concepts of different importance-levels, and thus can explore the influence of
the concepts on a target task, such as action classification, in-depth. The
codes are publicly available.
- Abstract(参考訳): 近年,2次元画像認識技術の確立に成功している。
一方,映像データの計算コストや複雑性から,3次元映像認識の基盤については比較的研究が進んでいない。
本稿では,3D ConvNetを解釈するための3D ACE(Automatic Concept-based Explanation)フレームワークを提案する。
1)ビデオは高レベルなスーパーボクセルで表現され、人間が理解しやすい。(2)解釈フレームワークは各ボクセルのスコアを推定し、決定過程においてその重要性を反映している。
実験により,提案手法は,重要度レベルの異なる空間的時間的概念を探索し,行動分類などの対象課題に対する概念の影響を深く探究できることを示した。
コードは公開されている。
関連論文リスト
- Learning-based Multi-View Stereo: A Survey [55.3096230732874]
MVS(Multi-View Stereo)アルゴリズムは、複雑な環境における正確な再構築を可能にする包括的な3D表現を合成する。
ディープラーニングの成功により、多くの学習ベースのMVS手法が提案され、従来の手法に対して優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-27T17:53:18Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - A Review and A Robust Framework of Data-Efficient 3D Scene Parsing with
Traditional/Learned 3D Descriptors [10.497309421830671]
既存の最先端の3Dポイントクラウド理解手法は、完全に教師された方法でのみうまく機能する。
この研究は、ラベルが限定されている場合のポイントクラウド理解に取り組むための、汎用的でシンプルなフレームワークを提供する。
論文 参考訳(メタデータ) (2023-12-03T02:51:54Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - 3D Concept Grounding on Neural Fields [99.33215488324238]
既存の視覚的推論手法は、典型的には、2Dセグメンテーションマスクを抽出するために教師付き手法を用いる。
人間は、画像の3D表現の基盤となる概念を基盤にすることができる。
我々は,ニューラルネットワークの連続的,微分可能な性質を利用して概念をセグメント化し,学習することを提案する。
論文 参考訳(メタデータ) (2022-07-13T17:59:33Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z) - Interpreting video features: a comparison of 3D convolutional networks
and convolutional LSTM networks [1.462434043267217]
我々は3次元畳み込みネットワークと畳み込みLSTMネットワークが時間依存のフレーム間でどのように特徴を学習するかを比較する。
以上の結果から,3次元畳み込みモデルは入力シーケンス内の短い事象に集中し,空間的焦点を少ない連続した領域に配置することが示唆された。
論文 参考訳(メタデータ) (2020-02-02T11:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。