論文の概要: A3D: Adaptive 3D Networks for Video Action Recognition
- arxiv url: http://arxiv.org/abs/2011.12384v1
- Date: Tue, 24 Nov 2020 21:01:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 12:26:30.001798
- Title: A3D: Adaptive 3D Networks for Video Action Recognition
- Title(参考訳): A3D:ビデオ行動認識のための適応型3Dネットワーク
- Authors: Sijie Zhu and Taojiannan Yang and Matias Mendieta and Chen Chen
- Abstract要約: A3Dは適応的な3Dネットワークであり、幅広い計算ワンタイムトレーニングで推論できる。
ネットワーク幅と時間分解能のトレードオフによって、優れた制約が生じる。
同じ計算制約の下でも,適応型ネットワークの性能は著しく向上する。
- 参考スコア(独自算出の注目度): 17.118351068420086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents A3D, an adaptive 3D network that can infer at a wide
range of computational constraints with one-time training. Instead of training
multiple models in a grid-search manner, it generates good configurations by
trading off between network width and spatio-temporal resolution. Furthermore,
the computation cost can be adapted after the model is deployed to meet
variable constraints, for example, on edge devices. Even under the same
computational constraints, the performance of our adaptive networks can be
significantly boosted over the baseline counterparts by the mutual training
along three dimensions. When a multiple pathway framework, e.g. SlowFast, is
adopted, our adaptive method encourages a better trade-off between pathways
than manual designs. Extensive experiments on the Kinetics dataset show the
effectiveness of the proposed framework. The performance gain is also verified
to transfer well between datasets and tasks. Code will be made available.
- Abstract(参考訳): 本稿では,適応型3次元ネットワークであるa3dについて述べる。
グリッド検索方式で複数のモデルをトレーニングする代わりに、ネットワーク幅と時空間分解能のトレードオフによって優れた構成を生成する。
さらに、モデルがデプロイされた後に計算コストを適用でき、例えばエッジデバイスで可変制約を満たすことができる。
同じ計算制約の下でも、我々の適応ネットワークの性能は3次元の相互学習によってベースラインネットワークよりも著しく向上させることができる。
SlowFastのような複数経路のフレームワークを採用すると、我々の適応的手法は手動設計よりも経路間のトレードオフを良くする。
Kineticsデータセットに関する大規模な実験は、提案したフレームワークの有効性を示している。
パフォーマンス向上はデータセットとタスク間でうまく転送できることも確認されている。
コードは利用可能になる。
関連論文リスト
- Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.790636524264]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-18T17:59:57Z) - Fast-SNARF: A Fast Deformer for Articulated Neural Fields [92.68788512596254]
本稿では,標準空間とポーズ空間の正確な対応性を求める,ニューラルフィールドのための新しい調音モジュールFast-SNARFを提案する。
Fast-SNARFはこれまでの研究であるSNARFの代替であり、計算効率は大幅に向上した。
変形マップの学習は多くの3次元人間のアバター法において重要な要素であるため、この研究は3次元仮想人間の実現に向けた重要なステップであると考えている。
論文 参考訳(メタデータ) (2022-11-28T17:55:34Z) - Transformation-Equivariant 3D Object Detection for Autonomous Driving [44.17100476968737]
変態同変3D検出器(TED)は、自律運転中の3D物体を効率よく検出する手段である。
TEDは、KITTIの3D車検出リーダーボードに登録された全ての応募のうち、第1位にランクインしている。
論文 参考訳(メタデータ) (2022-11-22T02:51:56Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Dual Octree Graph Networks for Learning Adaptive Volumetric Shape
Representations [21.59311861556396]
本手法は,3次元形状の体積場を,オクツリーによって構成された適応的特徴量で符号化する。
エンコーダ・デコーダネットワークは、オクツリーノードの二重グラフ上のグラフ畳み込みに基づいて、適応的な特徴量を学ぶように設計されている。
提案手法は, 形状詳細を効果的に符号化し, 高速な3次元形状復元を可能にし, 訓練カテゴリから3次元形状をモデル化するための優れた汎用性を示す。
論文 参考訳(メタデータ) (2022-05-05T17:56:34Z) - Domain Adaptor Networks for Hyperspectral Image Recognition [35.95313368586933]
本稿では,3チャンネルカラー画像に基づいてトレーニングしたネットワークを,多数のチャネルを持つハイパースペクトル領域に適応させる問題について考察する。
画像ネットのような大規模カラー画像データセットでトレーニングされたネットワークと互換性のある入力をマップするドメインアダプタネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-03T15:06:39Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Adjoint Rigid Transform Network: Task-conditioned Alignment of 3D Shapes [86.2129580231191]
Adjoint Rigid Transform (ART) Networkは、さまざまな3Dネットワークと統合可能なニューラルネットワークモジュールである。
ARTは入力の形状を学習した標準方向に回転させることを学び、多くのタスクに欠かせない。
さらなる研究のために、コードと事前訓練されたモデルをリリースします。
論文 参考訳(メタデータ) (2021-02-01T20:58:45Z) - Gram Regularization for Multi-view 3D Shape Retrieval [3.655021726150368]
本稿では,グラム正規化という新しい正規化用語を提案する。
重みカーネル間の分散を強要することにより、正規化器は識別的特徴を抽出するのに役立つ。
提案したグラム正規化はデータ独立であり、ベルやホイッスルを使わずに安定かつ迅速に収束することができる。
論文 参考訳(メタデータ) (2020-11-16T05:37:24Z) - Deep Adaptive Inference Networks for Single Image Super-Resolution [72.7304455761067]
シングルイメージ超解像(SISR)は、ディープ畳み込みニューラルネットワーク(CNN)の展開により、近年大きく進歩している。
本稿では,深部SISR(AdaDSR)の適応型推論ネットワークを活用することで,この問題に対処する。
我々のAdaDSRは、SISRモデルをバックボーンとし、画像の特徴とリソース制約を入力として取り、ローカルネットワーク深さのマップを予測する軽量アダプタモジュールを備える。
論文 参考訳(メタデータ) (2020-04-08T10:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。