論文の概要: TVLT: Textless Vision-Language Transformer
- arxiv url: http://arxiv.org/abs/2209.14156v1
- Date: Wed, 28 Sep 2022 15:08:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 15:54:39.705015
- Title: TVLT: Textless Vision-Language Transformer
- Title(参考訳): TVLT: テキストレスビジョンランゲージ変換器
- Authors: Zineng Tang, Jaemin Cho, Yixin Nie, Mohit Bansal
- Abstract要約: テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 89.31422264408002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present the Textless Vision-Language Transformer (TVLT),
where homogeneous transformer blocks take raw visual and audio inputs for
vision-and-language representation learning with minimal modality-specific
design, and do not use text-specific modules such as tokenization or automatic
speech recognition (ASR). TVLT is trained by reconstructing masked patches of
continuous video frames and audio spectrograms (masked autoencoding) and
contrastive modeling to align video and audio. TVLT attains performance
comparable to its text-based counterpart, on various multimodal tasks, such as
visual question answering, image retrieval, video retrieval, and multimodal
sentiment analysis, with 28x faster inference speed and only 1/3 of the
parameters. Our findings suggest the possibility of learning compact and
efficient visual-linguistic representations from low-level visual and audio
signals without assuming the prior existence of text. Our code and checkpoints
are available at: https://github.com/zinengtang/TVLT
- Abstract(参考訳): 本稿では,不均質なトランスフォーマティブブロックが視覚・言語表現学習のための生の視覚・音声入力を最小のモダリティ設計で受け取り,トークン化や自動音声認識(asr)といったテキスト固有のモジュールを使用しないテキストレスビジョン言語トランスフォーマ(tvlt)を提案する。
TVLTは、連続したビデオフレームとオーディオスペクトログラム(マスク付きオートエンコーディング)のマスクパッチを再構築し、ビデオとオーディオを整列させるコントラストモデリングによって訓練される。
TVLTは、視覚的質問応答、画像検索、ビデオ検索、マルチモーダル感情分析などの様々なマルチモーダルタスクにおいて、テキストベースのものと同等のパフォーマンスを達成しており、推論速度は28倍速く、パラメータの1/3に過ぎない。
本研究は,テキストの存在を前提とせずに,低レベルの視覚・音声信号から,コンパクトかつ効率的な視覚言語表現を学習できることを示唆する。
私たちのコードとチェックポイントは以下の通りです。
関連論文リスト
- Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis [13.702423348269155]
本稿では,VTTSのビデオから音声を生成するタスクを提案し,マルチモーダル音声生成のための新しい手法を提案する。
本稿では,このタスクをビザトロニクスと呼ぶデコーダのみのマルチモーダルモデルを提案する。
視覚、テキスト、音声を直接トランスフォーマーモデルの共通部分空間に埋め込み、自己回帰的損失を用いて、話者ビデオや音声の書き起こしに条件付けられた離散化メル-スペクトログラムの生成モデルを学ぶ。
論文 参考訳(メタデータ) (2024-11-26T18:57:29Z) - CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection [2.110168344647122]
音声活動検出(Voice Activity Detection, VAD)は、人が話しているかどうかを自動的に判断し、発話のタイミングを識別するプロセスである。
コントラスト言語-画像事前学習(CLIP)モデルを利用した新しい手法を提案する。
提案手法は,その単純さに拘わらず,広範囲なオーディオ視覚データセットの事前学習を必要とせず,複数のオーディオ視覚法より優れる。
論文 参考訳(メタデータ) (2024-10-18T14:43:34Z) - Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。
我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。
0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文 参考訳(メタデータ) (2024-05-12T07:59:46Z) - Text-Conditioned Resampler For Long Form Video Understanding [94.81955667020867]
トレーニング済みのビジュアルエンコーダと大言語モデル(LLM)を用いたテキストコンディショニングビデオリサンプラー(TCR)モジュールを提案する。
TCRは、最適化された実装なしで、平易な注意で一度に100フレーム以上を処理できる。
論文 参考訳(メタデータ) (2023-12-19T06:42:47Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment [30.38594416942543]
本稿では,遅延拡散モデル,すなわちDiffAVAに基づく視覚アライメントを用いた,新規でパーソナライズされたテキスト・音声生成手法を提案する。
我々のDiffAVAは、ビデオ特徴から時間情報を集約するマルチヘッドアテンショントランスフォーマーと、テキスト埋め込みで時間的視覚表現を融合するデュアルマルチモーダル残差ネットワークを活用している。
AudioCapsデータセットの実験結果から、提案したDiffAVAは、視覚的に整列したテキスト・オーディオ生成において、競合する性能を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-22T10:37:27Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Masked Vision-Language Transformers for Scene Text Recognition [10.057137581956363]
Scene Text Recognition (STR) は、コンピュータが様々な現実世界のシーンでテキストを認識し読み取ることを可能にする。
近年のSTRモデルは、視覚的手がかりに加え、言語情報を取り入れることの恩恵を受けている。
本稿では,暗黙的および暗黙的言語情報の両方を捉えるために,Masked Vision-Language Transformers (MVLT)を提案する。
論文 参考訳(メタデータ) (2022-11-09T10:28:23Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。