Fugu-MT 論文翻訳(概要): LAVA: Language Audio Vision Alignment for Contrastive Video Pre-Training

論文の概要: LAVA: Language Audio Vision Alignment for Contrastive Video Pre-Training

arxiv url: http://arxiv.org/abs/2207.08024v1
Date: Sat, 16 Jul 2022 21:46:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-20 07:25:06.874926
Title: LAVA: Language Audio Vision Alignment for Contrastive Video Pre-Training
Title（参考訳）: LAVA:コントラストビデオ事前学習のための言語音声ビジョンアライメント
Authors: Sumanth Gurram, Andy Fang, David Chan, John Canny
Abstract要約: 本稿では,コントラスト学習に基づく新しい学習手法であるLAVAを提案する。 LAVAが現在最先端の自己監督型・弱監督型事前訓練技術と競合することを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generating representations of video data is of key importance in advancing the field of machine perception. Most current techniques rely on hand-annotated data, which can be difficult to work with, expensive to generate, and hard to scale. In this work, we propose a novel learning approach based on contrastive learning, LAVA, which is capable of learning joint language, audio, and video representations in a self-supervised manner. We pre-train LAVA on the Kinetics 700 dataset using transformer encoders to learn representations for each modality. We then demonstrate that LAVA performs competitively with the current state-of-the-art self-supervised and weakly-supervised pretraining techniques on UCF-101 and HMDB-51 video action recognition while using a fraction of the unlabeled data.
Abstract（参考訳）: 映像データの表現の生成は、機械知覚の分野を前進させる上で重要である。現在のほとんどのテクニックは、手書きのデータを頼りにしており、作業が難しく、生成が高価で、スケールが難しい。本研究では,コントラスト学習に基づく新しい学習手法であるLAVAを提案する。変換器エンコーダを用いて、Kinetics 700データセット上でLAVAを事前学習し、各モードの表現を学習する。次に, LAVAは, 未ラベルデータの一部を使用しながら, UCF-101およびHMDB-51ビデオ行動認識において, 最先端の自己監督・弱教師付き事前学習技術と競合することを示した。

関連論文リスト

Pre-trained Visual Dynamics Representations for Efficient Policy Learning [33.62440075940917]
本稿では,ビデオと下流タスク間の領域ギャップを埋めて効率的なポリシー学習を実現するために,事前学習型ビジュアルダイナミクス表現(PVDR)を提案する。事前訓練された視覚力学表現は、ビデオの知識以前の視覚力学をキャプチャする。この抽象的な事前知識は、ダウンストリームタスクに容易に適応でき、オンライン適応を通じて実行可能なアクションと整合することができる。
論文参考訳（メタデータ） (2024-11-05T15:18:02Z)
Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。 LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文参考訳（メタデータ） (2024-10-15T16:28:09Z)
Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。 ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文参考訳（メタデータ） (2023-12-28T23:34:43Z)
Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision and Language Models [67.31684040281465]
textbfMOVは,textbfMultimodal textbfOpen-textbfVocabularyビデオ分類の簡易かつ効果的な方法である。 MOVでは、ビデオ、光フロー、オーディオスペクトログラムを符号化するために、トレーニング済みのVLMのビジョンエンコーダを最小限の修正で直接使用する。
論文参考訳（メタデータ） (2022-07-15T17:59:11Z)
Revisiting Classifier: Transferring Vision-Language Models for Video Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。本研究では,映像分類作業における知識の伝達に着目した。予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文参考訳（メタデータ） (2022-07-04T10:00:47Z)
Preserve Pre-trained Knowledge: Transfer Learning With Self-Distillation For Action Recognition [8.571437792425417]
本研究では,大規模データセットから学習した事前学習モデルから知識を保存するために,微調整における自己蒸留を併用した新しい伝達学習手法を提案する。具体的には,最後のエポックから教師モデルとしてエンコーダを固定し,トランスファー学習における現在のエポックからエンコーダのトレーニングを指導する。
論文参考訳（メタデータ） (2022-05-01T16:31:25Z)
Auxiliary Learning for Self-Supervised Video Representation via Similarity-based Knowledge Distillation [2.6519061087638014]
本稿では,知識類似度蒸留法(auxSKD)を基礎として,補助的プレトレーニングフェーズを通じて自己指導型プレトレーニングを補完する新しい手法を提案する。本手法は,学習者の学習モデルに対する知識を反復的に消し去る教師ネットワークを,未学習映像データのセグメント間の類似情報をキャプチャすることで展開する。また、入力ビデオのランダムに選択されたセグメントの再生速度を予測し、より信頼性の高い自己教師付き表現を提供するための新しいプリテキストタスク、ビデオセグメントペース予測(VSPP)を導入する。
論文参考訳（メタデータ） (2021-12-07T21:50:40Z)
Masking Modalities for Cross-modal Video Retrieval [93.10669981708878]
ビデオエンコーダを事前訓練するための一般的な戦略は、付随する音声を弱い監督力として使用することである。ビデオエンコーダの事前学習には,映像のモダリティ,すなわち外見,音,書き起こされた音声の監督が用いられる。 How2R, YouCook2, Condensed Moviesデータセット上で, ビデオ検索のための"モダリティマスキング"事前学習手法の優れた性能を示す。
論文参考訳（メタデータ） (2021-11-01T23:55:04Z)
Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文参考訳（メタデータ） (2020-08-11T17:58:50Z)
Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文参考訳（メタデータ） (2020-01-16T08:28:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。