論文の概要: VLG: General Video Recognition with Web Textual Knowledge
- arxiv url: http://arxiv.org/abs/2212.01638v1
- Date: Sat, 3 Dec 2022 15:46:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 17:06:39.318573
- Title: VLG: General Video Recognition with Web Textual Knowledge
- Title(参考訳): VLG:Webテキスト知識による一般的なビデオ認識
- Authors: Jintao Lin, Zhaoyang Liu, Wenhai Wang, Wayne Wu, Limin Wang
- Abstract要約: 我々は、統合されたフレームワーク内で異なる認識タスクを解くための一般的なビデオ認識(GVR)問題に焦点を当てる。
インターネットからクロールされたノイズの多いテキスト記述から意味知識を活用することで、統合視覚言語フレームワーク(VLG)を提案する。
我々のVLGは、まずビデオと言語データセットで事前訓練され、共有機能空間を学習し、それからフレキシブルなバイモーダルなアテンションヘッドを考案し、異なる設定下でハイレベルなセマンティックな概念を協調します。
- 参考スコア(独自算出の注目度): 47.3660792813967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video recognition in an open and dynamic world is quite challenging, as we
need to handle different settings such as close-set, long-tail, few-shot and
open-set. By leveraging semantic knowledge from noisy text descriptions crawled
from the Internet, we focus on the general video recognition (GVR) problem of
solving different recognition tasks within a unified framework. The core
contribution of this paper is twofold. First, we build a comprehensive video
recognition benchmark of Kinetics-GVR, including four sub-task datasets to
cover the mentioned settings. To facilitate the research of GVR, we propose to
utilize external textual knowledge from the Internet and provide multi-source
text descriptions for all action classes. Second, inspired by the flexibility
of language representation, we present a unified visual-linguistic framework
(VLG) to solve the problem of GVR by an effective two-stage training paradigm.
Our VLG is first pre-trained on video and language datasets to learn a shared
feature space, and then devises a flexible bi-modal attention head to
collaborate high-level semantic concepts under different settings. Extensive
results show that our VLG obtains the state-of-the-art performance under four
settings. The superior performance demonstrates the effectiveness and
generalization ability of our proposed framework. We hope our work makes a step
towards the general video recognition and could serve as a baseline for future
research. The code and models will be available at
https://github.com/MCG-NJU/VLG.
- Abstract(参考訳): オープンでダイナミックな世界におけるビデオ認識は、クローズセット、ロングテール、少数ショット、オープンセットなど、さまざまな設定を扱う必要があるため、非常に難しい。
インターネットからクロールされたノイズの多いテキスト記述から意味的知識を活用することで、統一されたフレームワーク内で異なる認識タスクを解決する一般ビデオ認識(gvr)の問題に焦点をあてる。
本論文の核となる貢献は2つある。
まず、Kinetics-GVRの総合的なビデオ認識ベンチマークを構築し、前述の設定をカバーする4つのサブタスクデータセットを含む。
gvrの研究を容易にするために,インターネットから外部のテキスト知識を活用し,すべてのアクションクラスに対してマルチソーステキスト記述を提供することを提案する。
第2に,言語表現の柔軟性に触発されて,効果的な2段階学習パラダイムによってGVRの問題を解決する統一視覚言語フレームワーク(VLG)を提案する。
当社のvlgは、まずビデオと言語データセットを使って共有機能空間を学習し、その後、さまざまな設定でハイレベルな意味概念を協調するために、柔軟なバイモーダルな注意を向ける。
以上の結果から,VLGは4つの条件で最先端の性能を得ることができた。
優れた性能は,提案フレームワークの有効性と一般化能力を示す。
私たちの研究が一般的なビデオ認識への一歩を踏み出し、将来の研究のベースラインになることを期待しています。
コードとモデルはhttps://github.com/MCG-NJU/VLGで入手できる。
関連論文リスト
- VideoDistill: Language-aware Vision Distillation for Video Question Answering [24.675876324457747]
本稿では,視覚知覚と回答生成プロセスの両方において,言語認識(すなわち目標駆動)の振る舞いを持つフレームワークであるVideoDistillを提案する。
VideoDistillは質問関連のビジュアル埋め込みからのみ回答を生成する。
我々は,様々な挑戦的ビデオ質問応答ベンチマークを実験的に評価し,VideoDistillは最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-01T07:44:24Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。
本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。
我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文 参考訳(メタデータ) (2024-03-25T17:59:03Z) - UniVTG: Towards Unified Video-Language Temporal Grounding [52.56732639951834]
Video Temporal Grounding (VTG)は、カスタム言語クエリに従ってビデオのターゲットクリップをグラウンドすることを目的としている。
我々は、UniVTGと呼ばれる多様なVTGラベルとタスクを3方向に沿って統一することを提案する。
統合されたフレームワークのおかげで、大規模な多様なラベルから事前学習する時間的基盤を解き放つことができます。
論文 参考訳(メタデータ) (2023-07-31T14:34:49Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。