論文の概要: Improving ProtoNet for Few-Shot Video Object Recognition: Winner of
ORBIT Challenge 2022
- arxiv url: http://arxiv.org/abs/2210.00174v1
- Date: Sat, 1 Oct 2022 03:03:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 14:15:49.309501
- Title: Improving ProtoNet for Few-Shot Video Object Recognition: Winner of
ORBIT Challenge 2022
- Title(参考訳): ビデオオブジェクト認識のためのプロトネットの改良: ORBIT Challenge 2022の勝者
- Authors: Li Gu, Zhixiang Chi, Huan Liu, Yuanhao Yu, Yang Wang
- Abstract要約: 我々は,ORBIT Few-Shot Video Object Recognition Challenge 2022の入賞ソリューションを提案する。
ProtoNetベースラインを基盤として,提案手法の性能を3つの有効な手法により改善した。
- 参考スコア(独自算出の注目度): 28.27029433676475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present the winning solution for ORBIT Few-Shot Video Object
Recognition Challenge 2022. Built upon the ProtoNet baseline, the performance
of our method is improved with three effective techniques. These techniques
include the embedding adaptation, the uniform video clip sampler and the
invalid frame detection. In addition, we re-factor and re-implement the
official codebase to encourage modularity, compatibility and improved
performance. Our implementation accelerates the data loading in both training
and testing.
- Abstract(参考訳): 本稿では,ORBIT Few-Shot Video Object Recognition Challenge 2022の入賞ソリューションを提案する。
ProtoNetベースラインを基盤として,提案手法の性能を3つの有効な手法により改善した。
これらの手法には、埋め込み適応、一様ビデオクリップサンプリング器、無効フレーム検出が含まれる。
さらに、モジュール化、互換性、パフォーマンス改善を促進するために、公式コードベースをリファクタリングし、再実装しています。
我々の実装は、トレーニングとテストの両方でデータのロードを加速します。
関連論文リスト
- InstructVideo: Instructing Video Diffusion Models with Human Feedback [65.9590462317474]
InstructVideo は人からのフィードバックでテキスト・ビデオ拡散モデルに報酬の微調整を施す。
InstructVideoには2つの重要な要素がある: 1) 全DDIMサンプリングチェーンを通じて発生する報酬微調整のコストを改善するために、編集として報酬微調整を再放送する。
論文 参考訳(メタデータ) (2023-12-19T17:55:16Z) - VideoAssembler: Identity-Consistent Video Generation with Reference
Entities using Diffusion Model [97.99027412399198]
VideoAssemblerは、アイデンティティ一貫性のあるビデオ生成のためのエンドツーエンドフレームワークである。
VideoAssemblerは、入力参照エンティティに対してフレキシブルなビデオを作成することに長けている。
論文 参考訳(メタデータ) (2023-11-29T03:36:07Z) - Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。
既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。
テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文 参考訳(メタデータ) (2023-06-24T10:44:02Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - A Dual-level Detection Method for Video Copy Detection [13.517933749704866]
Meta AIはCVPR 2023でビデオ類似性チャレンジを開催し、テクノロジーを前進させる。
本稿では,ビデオ編集検出(VED)とフレームシーン検出(FSD)を併用したデュアルレベル検出手法を提案する。
論文 参考訳(メタデータ) (2023-05-21T06:19:08Z) - 3rd Place Solution to Meta AI Video Similarity Challenge [1.1470070927586016]
本稿では,Meta AI Video similarity Challenge (VSC2022)における3位ソリューションについて述べる。
提案手法は既存の画像コピー検出技術に基づいており,映像データの性質を活かすためのいくつかの戦略を取り入れている。
論文 参考訳(メタデータ) (2023-04-24T10:00:09Z) - DFA: Dynamic Feature Aggregation for Efficient Video Object Detection [15.897168900583774]
本稿では,機能拡張のためのフレームを適応的に選択するバニラ動的アグリゲーションモジュールを提案する。
バニラ動的アグリゲーションモジュールを、より効果的で再構成可能なデフォルマブルバージョンに拡張します。
提案手法と統合したImageNet VIDベンチマークでは,FGFAとSELSAがそれぞれ31%,SELSAが76%向上した。
論文 参考訳(メタデータ) (2022-10-02T17:54:15Z) - Dynamic Network Quantization for Efficient Video Inference [60.109250720206425]
本稿では,入力に条件付けされたフレーム毎に最適な精度を選択し,効率的な映像認識を実現する動的ネットワーク量子化フレームワークを提案する。
我々は、競争性能と資源効率の両方を達成するために、標準的なバックプロパゲーションと損失を使って、両方のネットワークを効果的に訓練する。
論文 参考訳(メタデータ) (2021-08-23T20:23:57Z) - AR-Net: Adaptive Frame Resolution for Efficient Action Recognition [70.62587948892633]
行動認識はコンピュータビジョンにおいてオープンで困難な問題である。
本稿では,入力に条件付けされた各フレームの最適な解像度をオンザフライで選択し,効率的な動作認識を実現する,AR-Netと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-31T01:36:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。