論文の概要: TNT: Text-Conditioned Network with Transductive Inference for Few-Shot
Video Classification
- arxiv url: http://arxiv.org/abs/2106.11173v1
- Date: Mon, 21 Jun 2021 15:08:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 19:20:57.003426
- Title: TNT: Text-Conditioned Network with Transductive Inference for Few-Shot
Video Classification
- Title(参考訳): TNT:Few-Shotビデオ分類のためのトランスダクティブ推論付きテキストコンディションネットワーク
- Authors: Andr\'es Villa, Juan-Manuel Perez-Rua, Vladimir Araujo, Juan Carlos
Niebles, Victor Escorcia, Alvaro Soto
- Abstract要約: テキストベースのタスクコンディショナーを定式化し、ビデオの特徴を数ショットの学習タスクに適応させる。
本モデルでは,4つの挑戦的ベンチマークを用いて,数発の動画アクション分類における最先端性能を得る。
- 参考スコア(独自算出の注目度): 26.12591949900602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, few-shot learning has received increasing interest. Existing
efforts have been focused on image classification, with very few attempts
dedicated to the more challenging few-shot video classification problem. These
few attempts aim to effectively exploit the temporal dimension in videos for
better learning in low data regimes. However, they have largely ignored a key
characteristic of video which could be vital for few-shot recognition, that is,
videos are often accompanied by rich text descriptions. In this paper, for the
first time, we propose to leverage these human-provided textual descriptions as
privileged information when training a few-shot video classification model.
Specifically, we formulate a text-based task conditioner to adapt video
features to the few-shot learning task. Our model follows a transductive
setting where query samples and support textual descriptions can be used to
update the support set class prototype to further improve the task-adaptation
ability of the model. Our model obtains state-of-the-art performance on four
challenging benchmarks in few-shot video action classification.
- Abstract(参考訳): 近年,ショット学習への関心が高まっている。
既存の努力は画像分類に重点を置いており、より挑戦的な数発のビデオ分類問題に焦点をあてる試みはほとんどない。
これらの試みはビデオの時間次元を効果的に活用し、低データ体制での学習を改善することを目的としている。
しかし、彼らはビデオの重要な特徴をほとんど無視しており、これはわずかな写真認識に不可欠であり、ビデオにはリッチなテキスト記述が伴うことが多い。
本稿では,これらのテキスト記述を,少数の映像分類モデルの訓練において特権情報として利用することを提案する。
具体的には,テキストベースのタスクコンディショナを定式化し,ビデオ機能をマイナショット学習タスクに適用する。
私たちのモデルは、クエリサンプルとテキスト記述をサポートしたトランスダクティブな設定に従い、サポートセットクラスのプロトタイプを更新し、モデルのタスク適応能力をさらに向上します。
提案モデルは,ビデオアクション分類において,4つの難解なベンチマークで最先端のパフォーマンスを得る。
関連論文リスト
- Videoprompter: an ensemble of foundational models for zero-shot video
understanding [113.92958148574228]
視覚言語モデル(VLM)は、視覚特徴とテキストベースのクラスラベル表現の類似点を計算することで、クエリビデオの分類を行う。
本稿では、事前学習されたディスクリミVLMと、事前学習された生成ビデオ・テキストモデルと、テキスト・テキストモデルを組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-23T19:45:46Z) - Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer [79.20605034378187]
ビデオ言語事前学習モデルは、ビデオ質問応答タスクの指導において顕著な成功を収めている。
ビデオシーケンスの長さのため、大規模なビデオベースモデルのトレーニングは、画像ベースモデルのトレーニングよりもかなりコストがかかる。
これは、画像ドメインとビデオドメインの間に明らかなギャップがあるにもかかわらず、画像ベースの事前学習からの知識を活用する動機となります。
論文 参考訳(メタデータ) (2023-08-16T15:00:50Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Less than Few: Self-Shot Video Instance Segmentation [50.637278655763616]
質問に対して適切なサポートビデオの検索を自動で行うことを提案する。
私たちは、ビデオインスタンスのセグメンテーションを、セルフショット(と数ショット)の設定で初めて取り組んだ。
我々は,新しいトランスモデルを用いた強力なベースライン性能を提供する。
論文 参考訳(メタデータ) (2022-04-19T13:14:43Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - Highlight Timestamp Detection Model for Comedy Videos via Multimodal
Sentiment Analysis [1.6181085766811525]
本研究では,この分野での最先端性能を得るためのマルチモーダル構造を提案する。
マルチモーダルビデオ理解のためのベンチマークをいくつか選択し、最適な性能を求めるのに最適なモデルを適用した。
論文 参考訳(メタデータ) (2021-05-28T08:39:19Z) - Learning Implicit Temporal Alignment for Few-shot Video Classification [40.57508426481838]
少数のビデオ分類は、いくつかのラベル付き例で新しいビデオカテゴリを学ぶことを目的としています。
このような設定でクラス不変な空間-時間表現を学ぶことは特に難しい。
本研究は,映像系列に対する新しいマッチングベースの少数ショット学習戦略を提案する。
論文 参考訳(メタデータ) (2021-05-11T07:18:57Z) - Generalized Few-Shot Video Classification with Video Retrieval and
Feature Generation [132.82884193921535]
従来の手法は,映像特徴学習の重要性を過小評価し,二段階的アプローチを提案する。
この単純なベースラインアプローチは、既存のベンチマークで20ポイント以上の精度で、以前の数ショットビデオ分類方法よりも優れていることを示す。
さらなる改善をもたらす2つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-09T13:05:32Z) - Straight to the Point: Fast-forwarding Videos via Reinforcement Learning
Using Textual Data [1.004766879203303]
本稿では,指導ビデオの高速化を目的とした強化学習の定式化に基づく新しい手法を提案する。
本手法では,最終映像のギャップを生じさせることなく,情報伝達に関係のないフレームを適応的に選択できる。
本稿では,VDAN(Visually-Guided Document Attention Network)と呼ばれる新しいネットワークを提案する。
論文 参考訳(メタデータ) (2020-03-31T14:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。