論文の概要: 2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video
Recognition
- arxiv url: http://arxiv.org/abs/2012.14950v1
- Date: Tue, 29 Dec 2020 21:40:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 20:35:38.824658
- Title: 2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video
Recognition
- Title(参考訳): 2Dか2Dか?
効率的な映像認識のための適応型3次元畳み込み選択
- Authors: Hengduo Li, Zuxuan Wu, Abhinav Shrivastava, Larry S. Davis
- Abstract要約: Ada3Dは、インスタンス固有の3D利用ポリシーを学び、3Dネットワークで使用するフレームと畳み込み層を決定する条件付き計算フレームワークです。
本手法は,最先端の3dモデルと同様の精度を実現し,異なるデータセット間での計算量を20%-50%削減できることを実証する。
- 参考スコア(独自算出の注目度): 84.697097472401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D convolutional networks are prevalent for video recognition. While
achieving excellent recognition performance on standard benchmarks, they
operate on a sequence of frames with 3D convolutions and thus are
computationally demanding. Exploiting large variations among different videos,
we introduce Ada3D, a conditional computation framework that learns
instance-specific 3D usage policies to determine frames and convolution layers
to be used in a 3D network. These policies are derived with a two-head
lightweight selection network conditioned on each input video clip. Then, only
frames and convolutions that are selected by the selection network are used in
the 3D model to generate predictions. The selection network is optimized with
policy gradient methods to maximize a reward that encourages making correct
predictions with limited computation. We conduct experiments on three video
recognition benchmarks and demonstrate that our method achieves similar
accuracies to state-of-the-art 3D models while requiring 20%-50% less
computation across different datasets. We also show that learned policies are
transferable and Ada3D is compatible to different backbones and modern clip
selection approaches. Our qualitative analysis indicates that our method
allocates fewer 3D convolutions and frames for "static" inputs, yet uses more
for motion-intensive clips.
- Abstract(参考訳): 3D畳み込みネットワークはビデオ認識に広く使われている。
標準ベンチマークで優れた認識性能を達成する一方で、3次元畳み込みを伴う一連のフレームで動作し、計算的に要求される。
Ada3Dは3Dネットワークで使用されるフレームと畳み込み層を決定するために、インスタンス固有の3D利用ポリシーを学習する条件計算フレームワークである。
これらのポリシーは、各入力ビデオクリップに条件付き2ヘッド軽量選択ネットワークによって導出される。
そして、選択ネットワークで選択されたフレームと畳み込みのみを3Dモデルで使用して予測を生成する。
選択ネットワークはポリシー勾配法で最適化され、限られた計算で正しい予測を行うことを促す報酬を最大化する。
3つのビデオ認識ベンチマークで実験を行い,本手法が最先端の3dモデルと同様の精度を実現し,異なるデータセット間での計算量を20%~50%削減できることを実証した。
また、学習したポリシーは転送可能であり、Ada3Dは異なるバックボーンや現代的なクリップ選択アプローチと互換性があることを示す。
定性的分析により,3次元の畳み込みとフレームを「静的」な入力に割り当てる手法は少ないが,動き集約的なクリップに多くを用いる。
関連論文リスト
- OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding [54.981605111365056]
本稿では,3次元点レベルの開語彙理解が可能な3次元ガウススティング(3DGS)に基づくOpenGaussianを紹介する。
我々の主な動機は、既存の3DGSベースのオープン語彙法が主に2Dピクセルレベルの解析に焦点を当てていることに起因している。
論文 参考訳(メタデータ) (2024-06-04T07:42:33Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z) - Optimization Planning for 3D ConvNets [123.43419144051703]
3次元畳み込みニューラルネットワーク(3D ConvNets)を最適に学習するのは簡単ではない。
パスを一連のトレーニング“状態”に分解し、各状態におけるハイパーパラメータ、例えば学習率と入力クリップの長さを指定する。
我々は全ての候補状態に対して動的プログラミングを行い、最適な状態の置換、すなわち最適化経路を計画する。
論文 参考訳(メタデータ) (2022-01-11T16:13:31Z) - Learnable Sampling 3D Convolution for Video Enhancement and Action
Recognition [24.220358793070965]
3次元畳み込み(emphLS3D-Conv)の能力を向上させるための新しいモジュールを導入する。
学習可能な2Dオフセットを3D畳み込みに追加し、フレーム間の空間的特徴マップ上の位置をサンプリングする。
ビデオ, ビデオ超解像, ビデオデノナイズ, アクション認識実験により, 提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-11-22T09:20:49Z) - Learning to Predict the 3D Layout of a Scene [0.3867363075280544]
本稿では,単一のRGB画像のみを使用する手法を提案し,LiDARセンサを持たないデバイスや車両に適用できるようにする。
KITTIデータセットは,クラスラベル付き道路交通シーン,2D境界ボックス,自由度7自由度3Dアノテーションで構成される。
我々は、公式のKITTIベンチマークで要求されるように、結合閾値70%の3次元交差で測定された適度に困難なデータに対して平均47.3%の平均精度を達成し、従来の最先端のRGBのみの手法よりも大きなマージンで上回った。
論文 参考訳(メタデータ) (2020-11-19T17:23:30Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z) - Explainable 3D Convolutional Neural Networks by Learning Temporal
Transformations [6.477885112149906]
時間分解型3D畳み込み(3TConv)を通常の3D畳み込み(3DConv)の解釈可能な代替として導入する。
3TConvでは、2Dフィルタと時間変換パラメータのセットを学習して3D畳み込みフィルタを得る。
3TConvは直接解釈可能な時間変換を学習することを示した。
論文 参考訳(メタデータ) (2020-06-29T12:29:30Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。