論文の概要: Survey: Transformer based Video-Language Pre-training
- arxiv url: http://arxiv.org/abs/2109.09920v1
- Date: Tue, 21 Sep 2021 02:36:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 00:20:05.315336
- Title: Survey: Transformer based Video-Language Pre-training
- Title(参考訳): トランスフォーマーを用いたビデオ言語事前学習
- Authors: Ludan Ruan and Qin Jin
- Abstract要約: 本調査は,ビデオ言語学習のためのトランスフォーマーに基づく事前学習手法の概要を概観することを目的としている。
まず、まず、注意機構、位置符号化などを含む背景知識としてトランスフォーマートラクチャーを紹介する。
トランスモデルをシングルストリームとマルチストリーム構造に分類し、イノベーションを強調し、パフォーマンスを比較する。
- 参考スコア(独自算出の注目度): 28.870441287367825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by the success of transformer-based pre-training methods on natural
language tasks and further computer vision tasks, researchers have begun to
apply transformer to video processing. This survey aims to give a comprehensive
overview on transformer-based pre-training methods for Video-Language learning.
We first briefly introduce the transformer tructure as the background
knowledge, including attention mechanism, position encoding etc. We then
describe the typical paradigm of pre-training & fine-tuning on Video-Language
processing in terms of proxy tasks, downstream tasks and commonly used video
datasets. Next, we categorize transformer models into Single-Stream and
Multi-Stream structures, highlight their innovations and compare their
performances. Finally, we analyze and discuss the current challenges and
possible future research directions for Video-Language pre-training.
- Abstract(参考訳): 自然言語タスクやコンピュータビジョンタスクに対するトランスフォーマーベースの事前学習手法の成功に触発されて、研究者はビデオ処理にトランスフォーマーを適用し始めた。
本調査は,ビデオ言語学習のためのトランスフォーマーに基づく事前学習手法の概要を概観することを目的とする。
まず,注意機構や位置符号化などの背景知識として,トランストラクチャを簡単に紹介する。
次に,ビデオ言語処理の事前学習と微調整の典型的なパラダイムについて,プロキシタスク,ダウンストリームタスク,一般的なビデオデータセットなどの観点から説明する。
次に、トランスモデルをシングルストリームとマルチストリーム構造に分類し、イノベーションを強調し、パフォーマンスを比較する。
最後に,ビデオランゲージ事前学習における現在の課題と今後の研究方向性を分析し,議論する。
関連論文リスト
- Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer [79.20605034378187]
ビデオ言語事前学習モデルは、ビデオ質問応答タスクの指導において顕著な成功を収めている。
ビデオシーケンスの長さのため、大規模なビデオベースモデルのトレーニングは、画像ベースモデルのトレーニングよりもかなりコストがかかる。
これは、画像ドメインとビデオドメインの間に明らかなギャップがあるにもかかわらず、画像ベースの事前学習からの知識を活用する動機となります。
論文 参考訳(メタデータ) (2023-08-16T15:00:50Z) - Vision Language Transformers: A Survey [0.9137554315375919]
イメージを記述するキャプションに関する質問に答えたり、生成したりするといった視覚言語タスクは、コンピュータが実行するのが難しいタスクである。
最近の研究は、ciptvaswani 2017で導入された事前訓練されたトランスフォーマーアーキテクチャを視覚言語モデリングに適用している。
トランスフォーマーモデルは、以前のビジョン言語モデルよりも性能と汎用性を大幅に改善した。
論文 参考訳(メタデータ) (2023-07-06T19:08:56Z) - Joint Moment Retrieval and Highlight Detection Via Natural Language
Queries [0.0]
本稿では,自然言語クエリに基づく共同動画要約とハイライト検出のための新しい手法を提案する。
このアプローチでは、視覚とオーディオの両方のキューを使用して、ユーザの自然言語クエリにマッチして、ビデオから最も関連性があり興味深い瞬間を検索する。
提案手法では、視覚変換器(ViT)で使用される複数の手法を用いて、トランスフォーマーライクなエンコーダデコーダモデルを作成する。
論文 参考訳(メタデータ) (2023-05-08T18:00:33Z) - Think Before You Act: Unified Policy for Interleaving Language Reasoning
with Actions [21.72567982148215]
オフラインデータ上で、同様の次のステップ予測目標でトランスフォーマーをトレーニングする方法を示す。
本稿では,言語推論とアクションを一つのポリシーで統一する新しい手法を提案する。
具体的には、単語出力によるトランスフォーマーポリシーを強化し、アクションにインターリーブされたテキストキャプションを生成する。
論文 参考訳(メタデータ) (2023-04-18T16:12:38Z) - Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。
本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:46:47Z) - Pre-training image-language transformers for open-vocabulary tasks [53.446599611203474]
本稿では,様々なタスクの混合に基づく視覚・言語トランスフォーマーモデルに対する事前学習手法を提案する。
本稿では,事前学習における画像テキストキャプションデータの利用について検討する。
本研究では,視覚質問応答,視覚的エンターテイメント,キャプションなど,テキスト生成型視覚+言語タスクの手法の評価を行い,標準的な事前学習手法よりも大きな効果を示した。
論文 参考訳(メタデータ) (2022-09-09T16:11:11Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文 参考訳(メタデータ) (2021-06-13T13:04:46Z) - Episodic Transformer for Vision-and-Language Navigation [142.6236659368177]
本稿では,長時間のサブタスク処理と複雑なヒューマンインストラクションの理解という2つの課題に取り組むことに焦点を当てる。
エピソード変換器(E.T.)を提案する。
言語入力と視覚観察と行動の全エピソード履歴を符号化するマルチモーダルトランスフォーマーである。
我々のアプローチは、挑戦的なALFREDベンチマークに新たな技術状況を設定し、見つからないテストの分割で38.4%と8.5%のタスク成功率を達成した。
論文 参考訳(メタデータ) (2021-05-13T17:51:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。