論文の概要: 2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video
Recognition
- arxiv url: http://arxiv.org/abs/2012.14950v1
- Date: Tue, 29 Dec 2020 21:40:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 20:35:38.824658
- Title: 2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video
Recognition
- Title(参考訳): 2Dか2Dか?
効率的な映像認識のための適応型3次元畳み込み選択
- Authors: Hengduo Li, Zuxuan Wu, Abhinav Shrivastava, Larry S. Davis
- Abstract要約: Ada3Dは、インスタンス固有の3D利用ポリシーを学び、3Dネットワークで使用するフレームと畳み込み層を決定する条件付き計算フレームワークです。
本手法は,最先端の3dモデルと同様の精度を実現し,異なるデータセット間での計算量を20%-50%削減できることを実証する。
- 参考スコア(独自算出の注目度): 84.697097472401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D convolutional networks are prevalent for video recognition. While
achieving excellent recognition performance on standard benchmarks, they
operate on a sequence of frames with 3D convolutions and thus are
computationally demanding. Exploiting large variations among different videos,
we introduce Ada3D, a conditional computation framework that learns
instance-specific 3D usage policies to determine frames and convolution layers
to be used in a 3D network. These policies are derived with a two-head
lightweight selection network conditioned on each input video clip. Then, only
frames and convolutions that are selected by the selection network are used in
the 3D model to generate predictions. The selection network is optimized with
policy gradient methods to maximize a reward that encourages making correct
predictions with limited computation. We conduct experiments on three video
recognition benchmarks and demonstrate that our method achieves similar
accuracies to state-of-the-art 3D models while requiring 20%-50% less
computation across different datasets. We also show that learned policies are
transferable and Ada3D is compatible to different backbones and modern clip
selection approaches. Our qualitative analysis indicates that our method
allocates fewer 3D convolutions and frames for "static" inputs, yet uses more
for motion-intensive clips.
- Abstract(参考訳): 3D畳み込みネットワークはビデオ認識に広く使われている。
標準ベンチマークで優れた認識性能を達成する一方で、3次元畳み込みを伴う一連のフレームで動作し、計算的に要求される。
Ada3Dは3Dネットワークで使用されるフレームと畳み込み層を決定するために、インスタンス固有の3D利用ポリシーを学習する条件計算フレームワークである。
これらのポリシーは、各入力ビデオクリップに条件付き2ヘッド軽量選択ネットワークによって導出される。
そして、選択ネットワークで選択されたフレームと畳み込みのみを3Dモデルで使用して予測を生成する。
選択ネットワークはポリシー勾配法で最適化され、限られた計算で正しい予測を行うことを促す報酬を最大化する。
3つのビデオ認識ベンチマークで実験を行い,本手法が最先端の3dモデルと同様の精度を実現し,異なるデータセット間での計算量を20%~50%削減できることを実証した。
また、学習したポリシーは転送可能であり、Ada3Dは異なるバックボーンや現代的なクリップ選択アプローチと互換性があることを示す。
定性的分析により,3次元の畳み込みとフレームを「静的」な入力に割り当てる手法は少ないが,動き集約的なクリップに多くを用いる。
関連論文リスト
- Dual Octree Graph Networks for Learning Adaptive Volumetric Shape
Representations [21.59311861556396]
本手法は,3次元形状の体積場を,オクツリーによって構成された適応的特徴量で符号化する。
エンコーダ・デコーダネットワークは、オクツリーノードの二重グラフ上のグラフ畳み込みに基づいて、適応的な特徴量を学ぶように設計されている。
提案手法は, 形状詳細を効果的に符号化し, 高速な3次元形状復元を可能にし, 訓練カテゴリから3次元形状をモデル化するための優れた汎用性を示す。
論文 参考訳(メタデータ) (2022-05-05T17:56:34Z) - Focal Sparse Convolutional Networks for 3D Object Detection [121.45950754511021]
我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。
焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。
スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:34:10Z) - Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文 参考訳(メタデータ) (2022-03-25T00:20:31Z) - AutoSDF: Shape Priors for 3D Completion, Reconstruction and Generation [29.018733252938926]
パワフルな事前処理によって、不十分な情報で推論を実行できます。
本稿では, 形状完了, 復元, 生成といったマルチモーダルな3次元課題を解決するために, 3次元形状に対する自己回帰前処理を提案する。
論文 参考訳(メタデータ) (2022-03-17T17:59:54Z) - Optimization Planning for 3D ConvNets [123.43419144051703]
3次元畳み込みニューラルネットワーク(3D ConvNets)を最適に学習するのは簡単ではない。
パスを一連のトレーニング“状態”に分解し、各状態におけるハイパーパラメータ、例えば学習率と入力クリップの長さを指定する。
我々は全ての候補状態に対して動的プログラミングを行い、最適な状態の置換、すなわち最適化経路を計画する。
論文 参考訳(メタデータ) (2022-01-11T16:13:31Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Spatial Context-Aware Self-Attention Model For Multi-Organ Segmentation [18.76436457395804]
マルチ組織セグメンテーションは、医学画像解析におけるディープラーニングの最も成功した応用の1つである。
深部畳み込みニューラルネット(CNN)は,CT画像やMRI画像上で臨床応用画像のセグメンテーション性能を達成する上で非常に有望である。
本研究では,高分解能2次元畳み込みによりセグメンテーションを実現する3次元モデルと2次元モデルを組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-12-16T21:39:53Z) - Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene
Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。
提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文 参考訳(メタデータ) (2020-11-29T12:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。