論文の概要: 2nd Place Scheme on Action Recognition Track of ECCV 2020 VIPriors
Challenges: An Efficient Optical Flow Stream Guided Framework
- arxiv url: http://arxiv.org/abs/2008.03996v1
- Date: Mon, 10 Aug 2020 09:50:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 22:54:32.517634
- Title: 2nd Place Scheme on Action Recognition Track of ECCV 2020 VIPriors
Challenges: An Efficient Optical Flow Stream Guided Framework
- Title(参考訳): 第2回ECCV 2020 VIPriors Challengesの動作認識トラックに関するスキーム:効率的な光フローストリームガイドフレームワーク
- Authors: Haoyu Chen, Zitong Yu, Xin Liu, Wei Peng, Yoon Lee, and Guoying Zhao
- Abstract要約: 我々は、小さなデータセットでモデルをスクラッチからトレーニングできるデータ効率フレームワークを提案する。
具体的には、3D中心差分畳み込み演算を導入することで、新しいC3Dニューラルネットワークベースの2ストリームフレームワークを提案する。
提案手法は,大規模データセット上で事前学習したモデルがなくても,有望な結果が得られることを実証した。
- 参考スコア(独自算出の注目度): 57.847010327319964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To address the problem of training on small datasets for action recognition
tasks, most prior works are either based on a large number of training samples
or require pre-trained models transferred from other large datasets to tackle
overfitting problems. However, it limits the research within organizations that
have strong computational abilities. In this work, we try to propose a
data-efficient framework that can train the model from scratch on small
datasets while achieving promising results. Specifically, by introducing a 3D
central difference convolution operation, we proposed a novel C3D neural
network-based two-stream (Rank Pooling RGB and Optical Flow) framework for the
task. The method is validated on the action recognition track of the ECCV 2020
VIPriors challenges and got the 2nd place (88.31%). It is proved that our
method can achieve a promising result even without a pre-trained model on large
scale datasets. The code will be released soon.
- Abstract(参考訳): アクション認識タスクのための小さなデータセットのトレーニングの問題に対処するために、ほとんどの先行作業は大量のトレーニングサンプルに基づいているか、他の大規模データセットから転送される事前トレーニングモデルを必要とするかのどちらかである。
しかし、強力な計算能力を持つ組織内での研究を制限する。
本研究では,小さなデータセット上でモデルをスクラッチからトレーニングし,有望な結果を得ることのできる,データ効率のよいフレームワークを提案する。
具体的には,3次元中心差分畳み込み操作を導入することで,C3Dニューラルネットを用いた新しい2ストリーム(Rank Pooling RGBとOCR)フレームワークを提案する。
この方法はECCV 2020 VIPriorsチャレンジの動作認識トラックで検証され、第2位(88.31%)を獲得した。
提案手法は,大規模データセット上で事前学習したモデルがなくても,有望な結果が得られることを示す。
コードはまもなくリリースされる。
関連論文リスト
- Foundation Model-Powered 3D Few-Shot Class Incremental Learning via Training-free Adaptor [9.54964908165465]
本稿では,3Dポイントクラウド環境におけるFew-Shot連続インクリメンタルラーニング問題に対処する新しい手法を提案する。
私たちは、ポイントクラウドデータに基づいて広範囲にトレーニングされた基礎的な3Dモデルを活用します。
このアプローチでは、二重キャッシュシステムを使用します。まず、モデルの予測にどれだけ自信があるかに基づいて、以前のテストサンプルを使用し、次に、オーバーフィッティングを防ぐために、少数の新しいタスクサンプルを含んでいます。
論文 参考訳(メタデータ) (2024-10-11T20:23:00Z) - Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - Robust and Explainable Fine-Grained Visual Classification with Transfer Learning: A Dual-Carriageway Framework [0.799543372823325]
我々は、Dual-Carriageway Framework (DCF) という自動ベストスーツトレーニングソリューション検索フレームワークを提案する。
3つの畳み込みニューラルネットワーク(ResNet18、ResNet34、Inception-v3)を用いてDCFの有効性を検証する。
その結果、既存のデータセットと新しいデータセットでそれぞれ2.13%、1.23%の微調整パスのパフォーマンスが向上した。
論文 参考訳(メタデータ) (2024-05-09T15:41:10Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Learning Compositional Shape Priors for Few-Shot 3D Reconstruction [36.40776735291117]
複雑なエンコーダ・デコーダアーキテクチャが,カテゴリごとの大量のデータを利用することを示す。
データから直接クラス固有のグローバルな形状を学習する3つの方法を提案する。
人気のShapeNetデータセットの実験から,本手法はゼロショットベースラインを40%以上上回る性能を示した。
論文 参考訳(メタデータ) (2021-06-11T14:55:49Z) - LightSAL: Lightweight Sign Agnostic Learning for Implicit Surface
Representation [5.1135133995376085]
本研究では3次元形状を学習するための新しい深層畳み込みアーキテクチャであるLightSALを提案する。
実験は、人間の形状を41kの3DスキャンしたD-Faustデータセットに基づいている。
論文 参考訳(メタデータ) (2021-03-26T05:50:14Z) - RethinkCWS: Is Chinese Word Segmentation a Solved Task? [81.11161697133095]
中国語の単語(CWS)システムの性能は、ディープニューラルネットワークの急速な発展とともに、徐々に高水準に達している。
本稿では、私たちが達成した事柄の株式を取得し、CWSタスクに残されている事柄を再考する。
論文 参考訳(メタデータ) (2020-11-13T11:07:08Z) - Point Transformer for Shape Classification and Retrieval of 3D and ALS
Roof PointClouds [3.3744638598036123]
本稿では,リッチポイントクラウド表現の導出を目的とした,完全注意モデルであるem Point Transformerを提案する。
モデルの形状分類と検索性能は,大規模都市データセット - RoofN3D と標準ベンチマークデータセット ModelNet40 で評価される。
提案手法は、RoofN3Dデータセットの他の最先端モデルよりも優れており、ModelNet40ベンチマークで競合する結果を与え、目に見えない点の破損に対して高い堅牢性を示す。
論文 参考訳(メタデータ) (2020-11-08T08:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。