論文の概要: Joint learning of images and videos with a single Vision Transformer
- arxiv url: http://arxiv.org/abs/2308.10533v1
- Date: Mon, 21 Aug 2023 07:38:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 14:27:55.675164
- Title: Joint learning of images and videos with a single Vision Transformer
- Title(参考訳): 単一視覚トランスフォーマを用いた映像と映像の合同学習
- Authors: Shuki Shimizu, Toru Tamaki
- Abstract要約: 一般的に、画像とビデオは、しばしば別々のモデルによって訓練される。
本稿では,Vision Transformer IV-ViTへの入力として画像のバッチを取る方法と,遅延融合による時間アグリゲーションを伴うビデオフレームのセットを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we propose a method for jointly learning of images and videos
using a single model. In general, images and videos are often trained by
separate models. We propose in this paper a method that takes a batch of images
as input to Vision Transformer IV-ViT, and also a set of video frames with
temporal aggregation by late fusion. Experimental results on two image datasets
and two action recognition datasets are presented.
- Abstract(参考訳): 本研究では,単一のモデルを用いて画像と映像を共同学習する手法を提案する。
一般的に、画像とビデオは、しばしば別々のモデルによって訓練される。
本稿では,Vision Transformer IV-ViTへの入力として画像のバッチを取る方法と,遅延融合による時間的アグリゲーションを伴うビデオフレームのセットを提案する。
2つの画像データセットと2つの行動認識データセットの実験結果を示す。
関連論文リスト
- Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation [60.27691946892796]
本稿では,一対の入力キーフレーム間のコヒーレントな動きで映像列を生成する手法を提案する。
実験の結果,本手法は既存の拡散法と従来のフレーム技術の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-08-27T17:57:14Z) - Integrating Query-aware Segmentation and Cross-Attention for Robust VQA [5.877562239530764]
トレーニング可能なクロスアテンションとLoRAファインタニングを備えたLVLMを用いたVizWiz-VQA法を提案する。
実験では,提案手法の有効性を実証し,解析する。
論文 参考訳(メタデータ) (2024-07-09T04:48:44Z) - Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。
LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。
比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文 参考訳(メタデータ) (2023-12-28T18:59:55Z) - S3Aug: Segmentation, Sampling, and Shift for Action Recognition [0.0]
提案手法は,1つのトレーニングビデオから,セグメンテーションとラベル・ツー・イメージ変換によって新しい映像を生成する。
サンプルによりラベル画像の特定のカテゴリを変更して様々なビデオを生成し、中間的特徴をシフトし、生成ビデオのフレーム間の時間的コヒーレンシを高める。
論文 参考訳(メタデータ) (2023-10-23T04:22:03Z) - Dual-path Adaptation from Image to Video Transformers [62.056751480114784]
ViTやSwinのような視覚基盤モデルの超越する表現力を、トレーニング可能なパラメータ数だけでビデオ理解するために効率的に転送する。
本稿では,空間的および時間的適応経路に分離した新しいDualPath適応法を提案する。
論文 参考訳(メタデータ) (2023-03-17T09:37:07Z) - Vision Transformer Based Model for Describing a Set of Images as a Story [26.717033245063092]
本稿では,画像の集合を物語として記述する新しいビジョントランスフォーマーベースモデルを提案する。
提案手法は視覚変換器(ViT)を用いて入力画像の特徴を抽出する。
提案モデルの性能はVisual Story-Telling dataset (VIST)を用いて評価する。
論文 参考訳(メタデータ) (2022-10-06T09:01:50Z) - VL-BEiT: Generative Vision-Language Pretraining [107.25298505511184]
生成前訓練により学習した双方向多モード変換器であるVL-BEiTを提案する。
具体的には、画像テキスト対におけるマスク付き視覚言語モデリング、テキスト上でのマスク付き言語モデリング、画像上でのマスク付き画像モデリングを行う。
論文 参考訳(メタデータ) (2022-06-02T16:14:19Z) - BEVT: BERT Pretraining of Video Transformers [89.08460834954161]
本稿では,映像表現学習を空間表現学習と時間ダイナミクス学習に分離するBEVTを紹介する。
我々は、BEVTが非常に有望な結果を得る3つの挑戦的なビデオベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-12-02T18:59:59Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。