論文の概要: Spatial-temporal Concept based Explanation of 3D ConvNets
- arxiv url: http://arxiv.org/abs/2206.05275v1
- Date: Thu, 9 Jun 2022 08:04:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-19 19:08:01.678777
- Title: Spatial-temporal Concept based Explanation of 3D ConvNets
- Title(参考訳): 時空間概念に基づく3次元ConvNetの表現
- Authors: Ying Ji, Yu Wang, Kensaku Mori, Jien Kato
- Abstract要約: 本稿では,3D ConvNet を解釈するための3D ACE (Automatic Concept-based Explanation) フレームワークを提案する。
提案手法では,ビデオは高レベルなスーパーボクセルを用いて表現される。
実験により,本手法は異なる重要度の空間的時間的概念を発見できることが示された。
- 参考スコア(独自算出の注目度): 5.461115214431218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have achieved outstanding success in explaining 2D image
recognition ConvNets. On the other hand, due to the computation cost and
complexity of video data, the explanation of 3D video recognition ConvNets is
relatively less studied. In this paper, we present a 3D ACE (Automatic
Concept-based Explanation) framework for interpreting 3D ConvNets. In our
approach: (1) videos are represented using high-level supervoxels, which is
straightforward for human to understand; and (2) the interpreting framework
estimates a score for each voxel, which reflects its importance in the decision
procedure. Experiments show that our method can discover spatial-temporal
concepts of different importance-levels, and thus can explore the influence of
the concepts on a target task, such as action classification, in-depth. The
codes are publicly available.
- Abstract(参考訳): 近年,2次元画像認識技術の確立に成功している。
一方,映像データの計算コストや複雑性から,3次元映像認識の基盤については比較的研究が進んでいない。
本稿では,3D ConvNetを解釈するための3D ACE(Automatic Concept-based Explanation)フレームワークを提案する。
1)ビデオは高レベルなスーパーボクセルで表現され、人間が理解しやすい。(2)解釈フレームワークは各ボクセルのスコアを推定し、決定過程においてその重要性を反映している。
実験により,提案手法は,重要度レベルの異なる空間的時間的概念を探索し,行動分類などの対象課題に対する概念の影響を深く探究できることを示した。
コードは公開されている。
関連論文リスト
- A Review and A Robust Framework of Data-Efficient 3D Scene Parsing with
Traditional/Learned 3D Descriptors [10.497309421830671]
既存の最先端の3Dポイントクラウド理解手法は、完全に教師された方法でのみうまく機能する。
この研究は、ラベルが限定されている場合のポイントクラウド理解に取り組むための、汎用的でシンプルなフレームワークを提供する。
論文 参考訳(メタデータ) (2023-12-03T02:51:54Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - OccupancyDETR: Making Semantic Scene Completion as Straightforward as
Object Detection [11.663298245614584]
3Dセマンティック占有感は、自律運転のようなロボットアプリケーションのための新しい知覚パラダイムである。
我々は,DETRのようなオブジェクト検出モジュールと3D占有デコーダモジュールからなる,新しい3D意味的占有認識手法OccupancyDETRを提案する。
提案手法がSemantic KITTIデータセットに与える影響を実証し,mIoUが23で,処理速度が毎秒6フレームであることを示す。
論文 参考訳(メタデータ) (2023-09-15T16:06:23Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - 3D Concept Grounding on Neural Fields [99.33215488324238]
既存の視覚的推論手法は、典型的には、2Dセグメンテーションマスクを抽出するために教師付き手法を用いる。
人間は、画像の3D表現の基盤となる概念を基盤にすることができる。
我々は,ニューラルネットワークの連続的,微分可能な性質を利用して概念をセグメント化し,学習することを提案する。
論文 参考訳(メタデータ) (2022-07-13T17:59:33Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z) - Interpreting video features: a comparison of 3D convolutional networks
and convolutional LSTM networks [1.462434043267217]
我々は3次元畳み込みネットワークと畳み込みLSTMネットワークが時間依存のフレーム間でどのように特徴を学習するかを比較する。
以上の結果から,3次元畳み込みモデルは入力シーケンス内の短い事象に集中し,空間的焦点を少ない連続した領域に配置することが示唆された。
論文 参考訳(メタデータ) (2020-02-02T11:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。