論文の概要: Top-1 Solution of Multi-Moments in Time Challenge 2019
- arxiv url: http://arxiv.org/abs/2003.05837v2
- Date: Fri, 13 Mar 2020 11:53:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 15:06:48.941676
- Title: Top-1 Solution of Multi-Moments in Time Challenge 2019
- Title(参考訳): タイムチャレンジ2019におけるマルチモーメントのTop-1ソリューション
- Authors: Manyuan Zhang, Hao Shao, Guanglu Song, Yu Liu, Junjie Yan
- Abstract要約: 一般的な画像に基づく行動認識手法であるTRN, TSN, TSMを用いて, 実験を行った。
高速かつ正確な認識に向けて,新しい時間的インターレースネットワークを提案する。
我々は上記の全てのモデルをアンサンブルし、検証セットで67.22%、テストセットで60.77%を獲得し、最終リーダーボードで1位となった。
- 参考スコア(独自算出の注目度): 56.15819266653481
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this technical report, we briefly introduce the solutions of our team
'Efficient' for the Multi-Moments in Time challenge in ICCV 2019. We first
conduct several experiments with popular Image-Based action recognition methods
TRN, TSN, and TSM. Then a novel temporal interlacing network is proposed
towards fast and accurate recognition. Besides, the SlowFast network and its
variants are explored. Finally, we ensemble all the above models and achieve
67.22\% on the validation set and 60.77\% on the test set, which ranks 1st on
the final leaderboard. In addition, we release a new code repository for video
understanding which unifies state-of-the-art 2D and 3D methods based on
PyTorch. The solution of the challenge is also included in the repository,
which is available at https://github.com/Sense-X/X-Temporal.
- Abstract(参考訳): 本技術報告では,ICCV 2019におけるマルチモーメント・イン・タイムの課題に対する,チームの"効率的な"ソリューションについて紹介する。
まず,一般的な画像に基づく行動認識手法であるTRN, TSN, TSMを用いて実験を行った。
そして、高速かつ正確な認識に向けて、新しい時間的インターレースネットワークを提案する。
さらに、slowfast networkとその変種も検討されている。
最後に、上記のモデルをすべてまとめ、検証セットで67.22\%、テストセットで60.77\%を達成します。
さらに,PyTorchをベースとした最先端の2Dおよび3Dメソッドを統合するビデオ理解のための新しいコードリポジトリもリリースした。
チャレンジのソリューションはリポジトリにも含まれており、https://github.com/sense-x/x-temporalで入手できる。
関連論文リスト
- Exploiting Multiple Sequence Lengths in Fast End to End Training for
Image Captioning [52.25026952905702]
本稿では,シーケンス内の要素数に制約されない入力を処理する拡張機構を提案する。
そうすることで、従来の注意に基づくアプローチと比較して、モデルはより効果的に学習できる。
論文 参考訳(メタデータ) (2022-08-13T02:50:35Z) - Multi-Modal and Multi-Factor Branching Time Active Inference [2.513785998932353]
モンテカルロ木探索に基づく分枝時間アクティブ推論(BTAI)の2つのバージョンが開発されている。
しかし、BTAIのこれらの2つのバージョンはいまだ指数複雑性クラスに悩まされており、観測変数と潜伏変数の数がモデル化されている。
本稿では、この制限をいくつかの観測をモデル化することで解決する。
推論アルゴリズムは、後部の計算を高速化するために、可能性と遷移写像の分解を利用する。
論文 参考訳(メタデータ) (2022-06-24T22:07:21Z) - HOPE: Hierarchical Spatial-temporal Network for Occupancy Flow
Prediction [10.02342218798102]
CVPR 2022のオープンチャレンジにおけるOccupancy and Flow Predictionチャレンジに対する私たちのソリューションを紹介します。
我々は,空間時間エンコーダ,潜伏変数に富んだマルチスケールアグリゲータ,階層型3Dデコーダを備えた新しい階層型空間時空間ネットワークを開発した。
本手法は,フローグラウンドのAUCを0.8389で達成し,他のすべてのチームよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-21T05:25:58Z) - Two-Stream Consensus Network: Submission to HACS Challenge 2021
Weakly-Supervised Learning Track [78.64815984927425]
弱い監督による時間的行動ローカライゼーションの目標は、ビデオの興味ある動作を時間的に特定し、分類することである。
この課題では,2ストリームコンセンサスネットワーク(TSCN)を主要なフレームワークとして採用しています。
この課題では,本手法が今後の学術研究のベースラインとなることを期待して,第2位にランクインした。
論文 参考訳(メタデータ) (2021-06-21T03:36:36Z) - Weakly-Supervised Temporal Action Localization Through Local-Global
Background Modeling [30.104982661371164]
上記の問題に対処するためにBaSNetをベースとした2021年のHACS Challenge - 弱々しい教師付き学習追跡ソリューションを提示する。
具体的には、まず、事前訓練されたCSN、Slowfast、TDN、ViViTを特徴抽出器として採用し、特徴系列を得る。
そこで提案するローカル・グローバル・バックグラウンド・モデリング・ネットワーク(LGBM-Net)は,ビデオレベルラベルのみを用いてインスタンスのローカライズを訓練する。
論文 参考訳(メタデータ) (2021-06-20T02:58:45Z) - Anchor-Free Person Search [127.88668724345195]
パーソンサーチ(person search)は、クエリーの人物を同時にローカライズし、特定することを目的としている。
既存の作品の多くはfaster-rcnnのような2段検出器を採用しており、精度は高いが計算オーバーヘッドは高い。
この課題に効率的に取り組む最初のアンカーフリーフレームワークであるFeature-Aligned Person Search Network(AlignPS)を紹介します。
論文 参考訳(メタデータ) (2021-03-22T07:04:29Z) - Recurrent Multi-view Alignment Network for Unsupervised Surface
Registration [79.72086524370819]
非厳格な登録をエンドツーエンドで学習することは、本質的に高い自由度とラベル付きトレーニングデータの欠如により困難である。
我々は、いくつかの剛性変換のポイントワイドな組み合わせで、非剛性変換を表現することを提案する。
また,投影された多視点2次元深度画像上での3次元形状の類似度を計測する可微分損失関数も導入する。
論文 参考訳(メタデータ) (2020-11-24T14:22:42Z) - Challenge report:VIPriors Action Recognition Challenge [14.080142383692417]
アクション認識は完全な応用のために多くの研究者を惹きつけてきたが、それでも挑戦的だ。
本稿では,従来の手法について検討し,提案手法を提案する。
残差フレームを入力としてビデオから動画の特徴を抽出するために,高速だが効果的な手法を用いる。
論文 参考訳(メタデータ) (2020-07-16T08:40:31Z) - DeepMark++: Real-time Clothing Detection at the Edge [55.41644538483948]
本稿では,迅速な衣服検出とキーポイント推定を実現するための単一ステージアプローチを提案する。
提案手法は,マルチターゲットネットワークであるCenterNetをベースとして,性能向上のためのポストプロセッシング技術をいくつか導入する。
私たちの最も正確なモデルは、DeepFashion2データセットの最先端ソリューションに匹敵する結果を達成します。
論文 参考訳(メタデータ) (2020-06-01T04:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。