論文の概要: Minority-Oriented Vicinity Expansion with Attentive Aggregation for
Video Long-Tailed Recognition
- arxiv url: http://arxiv.org/abs/2211.13471v1
- Date: Thu, 24 Nov 2022 08:33:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 16:27:12.781130
- Title: Minority-Oriented Vicinity Expansion with Attentive Aggregation for
Video Long-Tailed Recognition
- Title(参考訳): ビデオ長手認識のための注意集約による小さめ指向性ビタミン拡張
- Authors: WonJun Moon, Hyun Seok Seong, Jae-Pil Heo
- Abstract要約: 非常に多種多様なトピックが出現する現実世界のビデオボリュームの劇的な増加は、そのカテゴリの観点からも、自然に長い尾の動画配信を形成している。
本稿では,ビデオ長大認識における課題を要約し,その克服方法について考察する。
提案手法は, 大規模ビデオLTとIm Balanced-MiniKinetics200を合成的に誘導し, 最先端の成果を得る。
- 参考スコア(独自算出の注目度): 6.673349839900761
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A dramatic increase in real-world video volume with extremely diverse and
emerging topics naturally forms a long-tailed video distribution in terms of
their categories, and it spotlights the need for Video Long-Tailed Recognition
(VLTR). In this work, we summarize the challenges in VLTR and explore how to
overcome them. The challenges are: (1) it is impractical to re-train the whole
model for high-quality features, (2) acquiring frame-wise labels requires
extensive cost, and (3) long-tailed data triggers biased training. Yet, most
existing works for VLTR unavoidably utilize image-level features extracted from
pretrained models which are task-irrelevant, and learn by video-level labels.
Therefore, to deal with such (1) task-irrelevant features and (2) video-level
labels, we introduce two complementary learnable feature aggregators. Learnable
layers in each aggregator are to produce task-relevant representations, and
each aggregator is to assemble the snippet-wise knowledge into a video
representative. Then, we propose Minority-Oriented Vicinity Expansion (MOVE)
that explicitly leverages the class frequency into approximating the vicinity
distributions to alleviate (3) biased training. By combining these solutions,
our approach achieves state-of-the-art results on large-scale VideoLT and
synthetically induced Imbalanced-MiniKinetics200. With VideoLT features from
ResNet-50, it attains 18% and 58% relative improvements on head and tail
classes over the previous state-of-the-art method, respectively.
- Abstract(参考訳): 極めて多種多様なトピックが出現する現実世界のビデオボリュームの劇的な増加は、そのカテゴリによって自然に長い尾の動画配信を形成し、VLTR(Video Long-Tailed Recognition)の必要性を浮き彫りにしている。
本稿では,VLTRの課題を要約し,その克服方法について考察する。
課題は,(1)高品質な特徴のためにモデル全体をトレーニングするのは現実的ではないこと,(2)フレームワイドラベルの取得には膨大なコストが必要であること,(3)長期データトリガがバイアストレーニングを引き起こすこと,である。
しかし、既存のVLTRの作業の多くは、タスク非関連である事前訓練されたモデルから抽出された画像レベルの特徴を必然的に利用し、ビデオレベルのラベルで学習する。
そこで,(1)タスク非関連特徴と(2)ビデオレベルのラベルを扱うために,2つの相補的な学習可能な特徴アグリゲータを導入する。
各アグリゲータの学習可能なレイヤはタスク関連表現を生成し、各アグリゲータはスニペット毎の知識をビデオ代表に組み立てる。
次に,クラス周波数を明示的に活用して周辺分布を近似し,(3)バイアストレーニングを緩和するマイノリティ指向近傍展開(move)を提案する。
これらの解を組み合わせることで,大規模ビデオLTとIm Balanced-MiniKinetics200を併用して,最先端の成果が得られる。
ResNet-50のVideoLT機能により、従来の最先端メソッドに比べてヘッドクラスとテールクラスの相対的な改善が18%と58%に達した。
関連論文リスト
- VidTok: A Versatile and Open-Source Video Tokenizer [24.018360305535307]
VidTokは、連続したトークン化と離散的なトークン化の両方で最先端のパフォーマンスを提供する、汎用的なビデオトークン化ツールである。
これらの進歩を統合することで、VidTokは既存のメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-12-17T16:27:11Z) - SEAL: Semantic Attention Learning for Long Video Representation [31.994155533019843]
本稿では,長編ビデオの新たな統一表現であるセマンティック・アテンション・ラーニング(SEAL)を紹介する。
計算複雑性を低減するために、長いビデオは3つの異なるタイプのセマンティックエンティティに分解される。
私たちの表現は多目的であり、様々な長いビデオ理解タスクにまたがるアプリケーションを可能にします。
論文 参考訳(メタデータ) (2024-12-02T18:46:12Z) - T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs [102.66246727371583]
そこで我々は,T2Vidと呼ばれるビデオライクなサンプルを合成し,学習コーパスの多様性を高める手法を開発した。
提案手法は,長いビデオサンプルをトレーニングすることなく,長いビデオ理解の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Contrastive Losses Are Natural Criteria for Unsupervised Video
Summarization [27.312423653997087]
ビデオの要約は、ビデオ内の最も情報に富むサブセットを選択して、効率的なビデオブラウジングを容易にすることを目的としている。
本稿では,局所的な相似性,グローバルな一貫性,一意性という,望ましいキーフレームを特徴とする3つの指標を提案する。
本研究は,事前学習した特徴を軽量なプロジェクションモジュールで洗練することにより,フレームレベルの重要度をさらに向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T07:01:28Z) - Advancing High-Resolution Video-Language Representation with Large-Scale
Video Transcriptions [31.4943447481144]
本稿では,共同学習と言語学習(VL)について検討し,モダリティ間の学習を可能とし,多くの下流作業に役立てる。
本モデルでは,10の理解タスクと2の新たなテキスト・ビジュアル生成タスクを実現する。
論文 参考訳(メタデータ) (2021-11-19T17:36:01Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z) - Few-Shot Video Object Detection [70.43402912344327]
本稿では,Few-Shot Video Object Detection (FSVOD) を紹介する。
fsvod-500は500のクラスからなり、各カテゴリーにクラスバランスのビデオがある。
私達のTPNおよびTMN+は共同およびエンドツーエンドの訓練されます。
論文 参考訳(メタデータ) (2021-04-30T07:38:04Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。