Fugu-MT 論文翻訳(概要): Improving ProtoNet for Few-Shot Video Object Recognition: Winner of ORBIT Challenge 2022

論文の概要: Improving ProtoNet for Few-Shot Video Object Recognition: Winner of ORBIT Challenge 2022

arxiv url: http://arxiv.org/abs/2210.00174v1
Date: Sat, 1 Oct 2022 03:03:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-04 14:15:49.309501
Title: Improving ProtoNet for Few-Shot Video Object Recognition: Winner of ORBIT Challenge 2022
Title（参考訳）: ビデオオブジェクト認識のためのプロトネットの改良: ORBIT Challenge 2022の勝者
Authors: Li Gu, Zhixiang Chi, Huan Liu, Yuanhao Yu, Yang Wang
Abstract要約: 我々は,ORBIT Few-Shot Video Object Recognition Challenge 2022の入賞ソリューションを提案する。 ProtoNetベースラインを基盤として,提案手法の性能を3つの有効な手法により改善した。
参考スコア（独自算出の注目度）: 28.27029433676475
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we present the winning solution for ORBIT Few-Shot Video Object Recognition Challenge 2022. Built upon the ProtoNet baseline, the performance of our method is improved with three effective techniques. These techniques include the embedding adaptation, the uniform video clip sampler and the invalid frame detection. In addition, we re-factor and re-implement the official codebase to encourage modularity, compatibility and improved performance. Our implementation accelerates the data loading in both training and testing.
Abstract（参考訳）: 本稿では,ORBIT Few-Shot Video Object Recognition Challenge 2022の入賞ソリューションを提案する。 ProtoNetベースラインを基盤として,提案手法の性能を3つの有効な手法により改善した。これらの手法には、埋め込み適応、一様ビデオクリップサンプリング器、無効フレーム検出が含まれる。さらに、モジュール化、互換性、パフォーマンス改善を促進するために、公式コードベースをリファクタリングし、再実装しています。我々の実装は、トレーニングとテストの両方でデータのロードを加速します。

関連論文リスト

InstructVEdit: A Holistic Approach for Instructional Video Editing [28.13673601495108]
InstructVEditは、信頼できるデータセットキュレーションワークフローを確立するフルサイクルのインストラクショナルビデオ編集アプローチである。時間的一貫性を維持しながら、編集品質を向上させるために、2つのモデルアーキテクチャの改善が組み込まれている。また、実世界のデータを活用して、一般化を強化し、列車とテストの相違を最小限に抑える反復的な改善戦略を提案する。
論文参考訳（メタデータ） (2025-03-22T04:12:20Z)
Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文参考訳（メタデータ） (2024-06-07T12:33:59Z)
3rd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation [63.199793919573295]
ビデオオブジェクト(VOS)はコンピュータビジョンにおいて重要なタスクであり、ビデオフレーム間の背景から前景オブジェクトを区別することに焦点を当てている。我々の研究はCutieモデルからインスピレーションを得ており、オブジェクトメモリ、メモリフレームの総数、および入力解像度がセグメンテーション性能に与える影響について検討する。
論文参考訳（メタデータ） (2024-06-06T00:56:25Z)
InstructVideo: Instructing Video Diffusion Models with Human Feedback [65.9590462317474]
InstructVideo は人からのフィードバックでテキスト・ビデオ拡散モデルに報酬の微調整を施す。 InstructVideoには2つの重要な要素がある: 1) 全DDIMサンプリングチェーンを通じて発生する報酬微調整のコストを改善するために、編集として報酬微調整を再放送する。
論文参考訳（メタデータ） (2023-12-19T17:55:16Z)
Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文参考訳（メタデータ） (2023-06-24T10:44:02Z)
Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文参考訳（メタデータ） (2023-06-21T06:18:05Z)
A Dual-level Detection Method for Video Copy Detection [13.517933749704866]
Meta AIはCVPR 2023でビデオ類似性チャレンジを開催し、テクノロジーを前進させる。本稿では,ビデオ編集検出(VED)とフレームシーン検出(FSD)を併用したデュアルレベル検出手法を提案する。
論文参考訳（メタデータ） (2023-05-21T06:19:08Z)
3rd Place Solution to Meta AI Video Similarity Challenge [1.1470070927586016]
本稿では,Meta AI Video similarity Challenge (VSC2022)における3位ソリューションについて述べる。提案手法は既存の画像コピー検出技術に基づいており,映像データの性質を活かすためのいくつかの戦略を取り入れている。
論文参考訳（メタデータ） (2023-04-24T10:00:09Z)
DFA: Dynamic Feature Aggregation for Efficient Video Object Detection [15.897168900583774]
本稿では,機能拡張のためのフレームを適応的に選択するバニラ動的アグリゲーションモジュールを提案する。バニラ動的アグリゲーションモジュールを、より効果的で再構成可能なデフォルマブルバージョンに拡張します。提案手法と統合したImageNet VIDベンチマークでは,FGFAとSELSAがそれぞれ31%,SELSAが76%向上した。
論文参考訳（メタデータ） (2022-10-02T17:54:15Z)
AR-Net: Adaptive Frame Resolution for Efficient Action Recognition [70.62587948892633]
行動認識はコンピュータビジョンにおいてオープンで困難な問題である。本稿では,入力に条件付けされた各フレームの最適な解像度をオンザフライで選択し,効率的な動作認識を実現する,AR-Netと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2020-07-31T01:36:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。