Fugu-MT 論文翻訳(概要): Language-based Action Concept Spaces Improve Video Self-Supervised Learning

論文の概要: Language-based Action Concept Spaces Improve Video Self-Supervised Learning

arxiv url: http://arxiv.org/abs/2307.10922v3
Date: Thu, 26 Oct 2023 14:34:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-28 01:04:21.159058
Title: Language-based Action Concept Spaces Improve Video Self-Supervised Learning
Title（参考訳）: 言語に基づく行動概念空間は自己指導型学習を改善する
Authors: Kanchana Ranasinghe and Michael Ryoo
Abstract要約: 画像CLIPモデルをビデオ領域に適応させるために,言語に結びついた自己教師型学習を導入する。時間的モデリングのために修正されたバックボーンは、アクション概念空間で運用される列車の目的と自己蒸留設定の下で訓練される。提案手法は3つの行動認識ベンチマークにおいてゼロショットおよび線形探索性能を向上させる。
参考スコア（独自算出の注目度）: 8.746806973828738
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent contrastive language image pre-training has led to learning highly transferable and robust image representations. However, adapting these models to video domains with minimal supervision remains an open problem. We explore a simple step in that direction, using language tied self-supervised learning to adapt an image CLIP model to the video domain. A backbone modified for temporal modeling is trained under self-distillation settings with train objectives operating in an action concept space. Feature vectors of various action concepts extracted from a language encoder using relevant textual prompts construct this space. We introduce two train objectives, concept distillation and concept alignment, that retain generality of original representations while enforcing relations between actions and their attributes. Our approach improves zero-shot and linear probing performance on three action recognition benchmarks.
Abstract（参考訳）: 最近のコントラスト言語画像事前学習は、高度に転送可能で堅牢な画像表現の学習につながっている。しかし、これらのモデルを最小限の監督でビデオドメインに適応させることは、まだ未解決の問題である。画像CLIPモデルをビデオ領域に適応させるために,言語による自己教師型学習を用いて,その方向への簡単なステップを探索する。時間的モデリングのために修正されたバックボーンは、アクションコンセプト空間で動作する列車の目的と自己蒸留設定の下で訓練される。関連するテキストプロンプトを用いて言語エンコーダから抽出した様々なアクション概念の特徴ベクトルがこの空間を構成する。本稿では, 従来の表現の汎用性を保ちつつ, 動作と属性の関係を強制する, 概念蒸留と概念アライメントという2つの列車目標を紹介する。提案手法は3つの行動認識ベンチマークにおいてゼロショットおよび線形探索性能を向上させる。

関連論文リスト

VideoGEM: Training-free Action Grounding in Videos [20.477666113083682]
我々は,事前訓練された画像とビデオ言語によるバックボーンに基づく,最初のトレーニング不要な空間行動グラウンドディング手法であるVideoGEMを提案する。アクションのような高レベルなセマンティック概念は、通常、画像およびビデオ言語モデルの上位層に現れる。本稿では, プロンプト分解, 処理動作, 動詞, オブジェクトプロンプトを別々に導入し, アクションの空間的局所化を向上する。
論文参考訳（メタデータ） (2025-03-26T09:20:30Z)
Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。局所性アライメント(Locality alignment)と呼ばれる,視覚障害者のための新しい学習段階を提案する。局所性に整合したバックボーンは、様々なベンチマークでパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-10-14T21:01:01Z)
FILS: Self-Supervised Video Feature Prediction In Semantic Language Space [11.641926922266347]
本稿では,セマンティックビデオ表現を学習するための自己教師型アプローチを示す。本稿では,意味言語空間における特徴予測手法であるFILSについて述べる。
論文参考訳（メタデータ） (2024-06-05T16:44:06Z)
Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer [79.20605034378187]
ビデオ言語事前学習モデルは、ビデオ質問応答タスクの指導において顕著な成功を収めている。ビデオシーケンスの長さのため、大規模なビデオベースモデルのトレーニングは、画像ベースモデルのトレーニングよりもかなりコストがかかる。これは、画像ドメインとビデオドメインの間に明らかなギャップがあるにもかかわらず、画像ベースの事前学習からの知識を活用する動機となります。
論文参考訳（メタデータ） (2023-08-16T15:00:50Z)
EC^2: Emergent Communication for Embodied Control [72.99894347257268]
エージェントはマルチモーダル・プレトレーニングを活用して、新しい環境でどのように振る舞うかを素早く学ぶ必要がある。本稿では,数発のエンボディドコントロールのためのビデオ言語表現を事前学習するための新しいスキームであるEmergent Communication for Embodied Control (EC2)を提案する。 EC2は、タスク入力としてビデオとテキストの両方の従来のコントラスト学習手法を一貫して上回っている。
論文参考訳（メタデータ） (2023-04-19T06:36:02Z)
Verbs in Action: Improving verb understanding in video-language models [128.87443209118726]
CLIPに基づく最先端のビデオ言語モデルは、動詞の理解が限られていることが示されている。我々は,CLIPに基づくビデオ言語モデルの動詞理解を改善するために,新しいVerb-Focused Contrastiveフレームワークを提案する。
論文参考訳（メタデータ） (2023-04-13T17:57:01Z)
Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文参考訳（メタデータ） (2023-02-23T18:46:41Z)
Self-Supervised Video Representation Learning with Motion-Contrastive Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet) MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文参考訳（メタデータ） (2022-04-10T05:34:46Z)
Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文参考訳（メタデータ） (2021-12-08T18:58:16Z)
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。 ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2021-07-16T00:19:22Z)
Neuro-Symbolic Representations for Video Captioning: A Case for Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文参考訳（メタデータ） (2020-11-18T20:21:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。