論文の概要: Distilling Knowledge from Language Models for Video-based Action
Anticipation
- arxiv url: http://arxiv.org/abs/2210.05991v1
- Date: Wed, 12 Oct 2022 08:02:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 12:17:03.033893
- Title: Distilling Knowledge from Language Models for Video-based Action
Anticipation
- Title(参考訳): 映像に基づく行動予測のための言語モデルからの知識の抽出
- Authors: Sayontan Ghosh, Tanvi Aggarwal, Minh Hoai, Niranjan Balasubramanian
- Abstract要約: ビデオにおける将来の行動を予測することは、多くの自律的で補助的な技術に役立ちます。
本稿では、トレーニング中に利用できるテキストモダリティを利用して、ターゲットアクション予測データセットに存在しない相補的な情報をもたらす方法を提案する。
- 参考スコア(独自算出の注目度): 31.59130630384036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anticipating future actions in a video is useful for many autonomous and
assistive technologies. Prior action anticipation work mostly treats this as a
vision modality problem, where the models learn the task information primarily
from the video features in the target action anticipation datasets. In this
work, we propose a method to make use of the text-modality that is available
during the training, to bring in complementary information that is not present
in the target action anticipation datasets. In particular, we leverage
pre-trained language models to build a text-modality teacher that is able to
predict future actions based on text labels of the past actions extracted from
the input video. To further adapt the teacher to the target domain (cooking),
we also pretrain the teacher on textual instructions from a recipes dataset
(Recipe1M). Then, we distill the knowledge gained by the text-modality teacher
into a vision-modality student to further improve it's performance. We
empirically evaluate this simple cross-modal distillation strategy on two video
datasets EGTEA-GAZE+ and EPIC-KITCHEN 55. Distilling this text-modality
knowledge into a strong vision model (Anticipative Vision Transformer) yields
consistent gains across both datasets, 3.5% relative improvement on top1 class
mean recall for EGTEA-GAZE+, 7.2% on top5 many-shot class mean recall for
EPIC-KITCHEN 55 and achieves new state-of-the-results.
- Abstract(参考訳): ビデオにおける将来の行動を予測することは、多くの自律的で補助的な技術に役立ちます。
先行アクション予測作業は、主にこれを視覚的モダリティ問題として扱い、モデルがターゲットアクション予測データセット内のビデオ特徴からタスク情報を学習する。
本研究では、トレーニング中に利用できるテキストモダリティを利用して、ターゲットアクション予測データセットに存在しない相補的な情報をもたらす方法を提案する。
特に,事前学習された言語モデルを利用して,入力映像から抽出した過去の行動のテキストラベルに基づいて,将来の行動を予測することができるテキストモダリティ教師を構築する。
さらに,教師を対象領域(調理)に適応させるために,レシピデータセット(レシピ1M)からテキストによる指導を事前訓練する。
次に,テキストモダリティ教師が得た知識を視覚モダリティの学生に抽出し,さらにパフォーマンスを向上させる。
EGTEA-GAZE+とEPIC-KITCHEN 55の2つのビデオデータセットに対して,この単純なクロスモーダル蒸留戦略を実証的に評価した。
このテキストモダリティの知識を強いビジョンモデル(予測ビジョントランスフォーマー)に蒸留することで、両方のデータセットに一貫した利益をもたらし、3.5%のtop1クラス平均リコール(egtea-gaze+)、7.2%のマルチショットクラス平均リコール(epic-kitchen 55)、そして新たなstate-of-results(results)を達成する。
関連論文リスト
- VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning [59.68917139718813]
そこで本研究では,市販の冷凍型ビジュアルエンコーダを用いて,予測および手続き計画において,最先端(SoTA)の性能を達成可能であることを示す。
観察されたステップから凍結したクリップレベルの埋め込みを条件付けて、目に見えないステップの動作を予測することで、予測のための堅牢な表現を学習することができる。
論文 参考訳(メタデータ) (2024-10-04T14:52:09Z) - On the Efficacy of Text-Based Input Modalities for Action Anticipation [15.567996062093089]
本稿では,アクションやオブジェクトのマルチモーダルな特徴やテキスト記述から学習するビデオトランスフォーマーアーキテクチャを提案する。
EpicKitchensデータセットの従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-23T18:58:35Z) - Temporal DINO: A Self-supervised Video Strategy to Enhance Action
Prediction [15.696593695918844]
本稿では、DINOにインスパイアされた行動予測(ラベルのない自己蒸留)を強化するための、新しい自己教師型ビデオ戦略を提案する。
実験結果は、3D-ResNet、Transformer、LSTMアーキテクチャで予測性能が大幅に向上したことを示している。
これらの知見は,行動認識,運動計画,シーン理解など,多様な映像ベースタスクにおけるアプローチの可能性を強調した。
論文 参考訳(メタデータ) (2023-08-08T21:18:23Z) - Learning without Forgetting for Vision-Language Models [65.49600786387106]
CIL(Class-Incremental Learning)あるいは継続的学習(Continuous Learning)は、現実世界において望ましい能力である。
VLM(Vision-Language Models)の最近の進歩は、一般化可能な表現を学習する上で有望な能力を示している。
本稿では,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:59:32Z) - STOA-VLP: Spatial-Temporal Modeling of Object and Action for
Video-Language Pre-training [30.16501510589718]
本研究では,空間的・時間的次元にまたがる対象情報と行動情報を協調的にモデル化する事前学習フレームワークを提案する。
我々は,ビデオ言語モデルの事前学習プロセスに,両方の情報をよりうまく組み込むための2つの補助タスクを設計する。
論文 参考訳(メタデータ) (2023-02-20T03:13:45Z) - Rethinking Learning Approaches for Long-Term Action Anticipation [32.67768331823358]
アクション予測は、ビデオの初期部分を観察した将来のアクションを予測することを含む。
本稿では,長期的行動予測を行う抗CIPATRについて紹介する。
本稿では,新しいトランスモデルを構築するための2段階学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-20T20:07:30Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文 参考訳(メタデータ) (2020-02-25T03:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。