Fugu-MT 論文翻訳(概要): Spatial-temporal Concept based Explanation of 3D ConvNets

論文の概要: Spatial-temporal Concept based Explanation of 3D ConvNets

arxiv url: http://arxiv.org/abs/2206.05275v1
Date: Thu, 9 Jun 2022 08:04:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-19 19:08:01.678777
Title: Spatial-temporal Concept based Explanation of 3D ConvNets
Title（参考訳）: 時空間概念に基づく3次元ConvNetの表現
Authors: Ying Ji, Yu Wang, Kensaku Mori, Jien Kato
Abstract要約: 本稿では,3D ConvNet を解釈するための3D ACE (Automatic Concept-based Explanation) フレームワークを提案する。提案手法では,ビデオは高レベルなスーパーボクセルを用いて表現される。実験により,本手法は異なる重要度の空間的時間的概念を発見できることが示された。
参考スコア（独自算出の注目度）: 5.461115214431218
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent studies have achieved outstanding success in explaining 2D image recognition ConvNets. On the other hand, due to the computation cost and complexity of video data, the explanation of 3D video recognition ConvNets is relatively less studied. In this paper, we present a 3D ACE (Automatic Concept-based Explanation) framework for interpreting 3D ConvNets. In our approach: (1) videos are represented using high-level supervoxels, which is straightforward for human to understand; and (2) the interpreting framework estimates a score for each voxel, which reflects its importance in the decision procedure. Experiments show that our method can discover spatial-temporal concepts of different importance-levels, and thus can explore the influence of the concepts on a target task, such as action classification, in-depth. The codes are publicly available.
Abstract（参考訳）: 近年,2次元画像認識技術の確立に成功している。一方,映像データの計算コストや複雑性から,3次元映像認識の基盤については比較的研究が進んでいない。本稿では,3D ConvNetを解釈するための3D ACE(Automatic Concept-based Explanation)フレームワークを提案する。 1)ビデオは高レベルなスーパーボクセルで表現され、人間が理解しやすい。(2)解釈フレームワークは各ボクセルのスコアを推定し、決定過程においてその重要性を反映している。実験により,提案手法は,重要度レベルの異なる空間的時間的概念を探索し,行動分類などの対象課題に対する概念の影響を深く探究できることを示した。コードは公開されている。

関連論文リスト

Escaping Plato's Cave: Robust Conceptual Reasoning through Interpretable 3D Neural Object Volumes [65.63534641857476]
画像分類における解釈可能性とロバスト性を統一する新しい方向であるCAVE(Concept Aware Volumes for Explanations)を紹介する。本研究では,既存の3次元認識型分類器をボリューム表現から抽出した概念で拡張することで,本質的に解釈可能かつ堅牢な分類器を設計する。解釈可能性のための定量的メトリクスの配列において、説明可能なAI文献全体にわたる異なる概念ベースのアプローチと比較し、CAVEが画像間で一貫して使用されるよく構築された概念を発見し、優れたロバスト性を実現していることを示す。
論文参考訳（メタデータ） (2025-03-17T17:55:15Z)
Learning-based Multi-View Stereo: A Survey [55.3096230732874]
MVS(Multi-View Stereo)アルゴリズムは、複雑な環境における正確な再構築を可能にする包括的な3D表現を合成する。ディープラーニングの成功により、多くの学習ベースのMVS手法が提案され、従来の手法に対して優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-08-27T17:53:18Z)
Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。 VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文参考訳（メタデータ） (2024-03-21T06:14:46Z)
A Review and A Robust Framework of Data-Efficient 3D Scene Parsing with Traditional/Learned 3D Descriptors [10.497309421830671]
既存の最先端の3Dポイントクラウド理解手法は、完全に教師された方法でのみうまく機能する。この研究は、ラベルが限定されている場合のポイントクラウド理解に取り組むための、汎用的でシンプルなフレームワークを提供する。
論文参考訳（メタデータ） (2023-12-03T02:51:54Z)
Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文参考訳（メタデータ） (2023-12-01T15:47:04Z)
ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文参考訳（メタデータ） (2023-11-29T20:30:18Z)
CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。 3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文参考訳（メタデータ） (2022-09-13T05:26:09Z)
3D Concept Grounding on Neural Fields [99.33215488324238]
既存の視覚的推論手法は、典型的には、2Dセグメンテーションマスクを抽出するために教師付き手法を用いる。人間は、画像の3D表現の基盤となる概念を基盤にすることができる。我々は,ニューラルネットワークの連続的,微分可能な性質を利用して概念をセグメント化し,学習することを提案する。
論文参考訳（メタデータ） (2022-07-13T17:59:33Z)
Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文参考訳（メタデータ） (2021-06-14T17:59:59Z)
Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文参考訳（メタデータ） (2020-08-26T12:24:23Z)
Interpreting video features: a comparison of 3D convolutional networks and convolutional LSTM networks [1.462434043267217]
我々は3次元畳み込みネットワークと畳み込みLSTMネットワークが時間依存のフレーム間でどのように特徴を学習するかを比較する。以上の結果から,3次元畳み込みモデルは入力シーケンス内の短い事象に集中し,空間的焦点を少ない連続した領域に配置することが示唆された。
論文参考訳（メタデータ） (2020-02-02T11:27:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。