論文の概要: Improving ProtoNet for Few-Shot Video Object Recognition: Winner of
ORBIT Challenge 2022
- arxiv url: http://arxiv.org/abs/2210.00174v1
- Date: Sat, 1 Oct 2022 03:03:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 14:15:49.309501
- Title: Improving ProtoNet for Few-Shot Video Object Recognition: Winner of
ORBIT Challenge 2022
- Title(参考訳): ビデオオブジェクト認識のためのプロトネットの改良: ORBIT Challenge 2022の勝者
- Authors: Li Gu, Zhixiang Chi, Huan Liu, Yuanhao Yu, Yang Wang
- Abstract要約: 我々は,ORBIT Few-Shot Video Object Recognition Challenge 2022の入賞ソリューションを提案する。
ProtoNetベースラインを基盤として,提案手法の性能を3つの有効な手法により改善した。
- 参考スコア(独自算出の注目度): 28.27029433676475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present the winning solution for ORBIT Few-Shot Video Object
Recognition Challenge 2022. Built upon the ProtoNet baseline, the performance
of our method is improved with three effective techniques. These techniques
include the embedding adaptation, the uniform video clip sampler and the
invalid frame detection. In addition, we re-factor and re-implement the
official codebase to encourage modularity, compatibility and improved
performance. Our implementation accelerates the data loading in both training
and testing.
- Abstract(参考訳): 本稿では,ORBIT Few-Shot Video Object Recognition Challenge 2022の入賞ソリューションを提案する。
ProtoNetベースラインを基盤として,提案手法の性能を3つの有効な手法により改善した。
これらの手法には、埋め込み適応、一様ビデオクリップサンプリング器、無効フレーム検出が含まれる。
さらに、モジュール化、互換性、パフォーマンス改善を促進するために、公式コードベースをリファクタリングし、再実装しています。
我々の実装は、トレーニングとテストの両方でデータのロードを加速します。
関連論文リスト
- Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - 3rd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation [63.199793919573295]
ビデオオブジェクト(VOS)はコンピュータビジョンにおいて重要なタスクであり、ビデオフレーム間の背景から前景オブジェクトを区別することに焦点を当てている。
我々の研究はCutieモデルからインスピレーションを得ており、オブジェクトメモリ、メモリフレームの総数、および入力解像度がセグメンテーション性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-06T00:56:25Z) - InstructVideo: Instructing Video Diffusion Models with Human Feedback [65.9590462317474]
InstructVideo は人からのフィードバックでテキスト・ビデオ拡散モデルに報酬の微調整を施す。
InstructVideoには2つの重要な要素がある: 1) 全DDIMサンプリングチェーンを通じて発生する報酬微調整のコストを改善するために、編集として報酬微調整を再放送する。
論文 参考訳(メタデータ) (2023-12-19T17:55:16Z) - Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。
既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。
テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文 参考訳(メタデータ) (2023-06-24T10:44:02Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - A Dual-level Detection Method for Video Copy Detection [13.517933749704866]
Meta AIはCVPR 2023でビデオ類似性チャレンジを開催し、テクノロジーを前進させる。
本稿では,ビデオ編集検出(VED)とフレームシーン検出(FSD)を併用したデュアルレベル検出手法を提案する。
論文 参考訳(メタデータ) (2023-05-21T06:19:08Z) - 3rd Place Solution to Meta AI Video Similarity Challenge [1.1470070927586016]
本稿では,Meta AI Video similarity Challenge (VSC2022)における3位ソリューションについて述べる。
提案手法は既存の画像コピー検出技術に基づいており,映像データの性質を活かすためのいくつかの戦略を取り入れている。
論文 参考訳(メタデータ) (2023-04-24T10:00:09Z) - DFA: Dynamic Feature Aggregation for Efficient Video Object Detection [15.897168900583774]
本稿では,機能拡張のためのフレームを適応的に選択するバニラ動的アグリゲーションモジュールを提案する。
バニラ動的アグリゲーションモジュールを、より効果的で再構成可能なデフォルマブルバージョンに拡張します。
提案手法と統合したImageNet VIDベンチマークでは,FGFAとSELSAがそれぞれ31%,SELSAが76%向上した。
論文 参考訳(メタデータ) (2022-10-02T17:54:15Z) - AR-Net: Adaptive Frame Resolution for Efficient Action Recognition [70.62587948892633]
行動認識はコンピュータビジョンにおいてオープンで困難な問題である。
本稿では,入力に条件付けされた各フレームの最適な解像度をオンザフライで選択し,効率的な動作認識を実現する,AR-Netと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-31T01:36:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。