論文の概要: data2vec: A General Framework for Self-supervised Learning in Speech,
Vision and Language
- arxiv url: http://arxiv.org/abs/2202.03555v1
- Date: Mon, 7 Feb 2022 22:52:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 15:24:17.357631
- Title: data2vec: A General Framework for Self-supervised Learning in Speech,
Vision and Language
- Title(参考訳): data2vec: 音声、視覚、言語における自己教師あり学習のための汎用フレームワーク
- Authors: Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu,
Michael Auli
- Abstract要約: data2vecは、音声、NLP、コンピュータビジョンのいずれかに同じ学習方法を使用するフレームワークである。
中心となる考え方は、自己蒸留装置における入力のマスキングビューに基づいて、完全な入力データの潜在表現を予測することである。
音声認識、画像分類、自然言語理解に関する主要なベンチマークの実験は、新しい技術や競争性能の状態を実証している。
- 参考スコア(独自算出の注目度): 85.9019051663368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the general idea of self-supervised learning is identical across
modalities, the actual algorithms and objectives differ widely because they
were developed with a single modality in mind. To get us closer to general
self-supervised learning, we present data2vec, a framework that uses the same
learning method for either speech, NLP or computer vision. The core idea is to
predict latent representations of the full input data based on a masked view of
the input in a self-distillation setup using a standard Transformer
architecture. Instead of predicting modality-specific targets such as words,
visual tokens or units of human speech which are local in nature, data2vec
predicts contextualized latent representations that contain information from
the entire input. Experiments on the major benchmarks of speech recognition,
image classification, and natural language understanding demonstrate a new
state of the art or competitive performance to predominant approaches.
- Abstract(参考訳): 自己指導学習の一般的な考え方は、モダリティ全体で同一であるが、実際のアルゴリズムと目的は、単一のモダリティを念頭に開発されたため、大きく異なる。
一般の自己教師型学習に近づくために,音声,NLP,コンピュータビジョンのいずれかに同じ学習方法を使用するフレームワークであるData2vecを提案する。
基本的な考え方は、標準のトランスフォーマーアーキテクチャを用いて、自己蒸留セットアップにおける入力のマスキングビューに基づいて、全入力データの潜在表現を予測することである。
data2vecは、自然に局所的な単語、視覚トークン、人間の発話単位などのモダリティ固有のターゲットを予測する代わりに、入力全体からの情報を含むコンテキスト化された潜在表現を予測する。
音声認識、画像分類、自然言語理解の主要なベンチマークの実験は、主要なアプローチに対する技術や競争性能の新たな状態を実証している。
関連論文リスト
- Learning Semantic Information from Raw Audio Signal Using Both
Contextual and Phonetic Representations [18.251845041785906]
本稿では,2種類の表現を用いて生音声信号から意味を学習するフレームワークを提案する。
本稿では,時間分解能の異なる2種類の表現をキャプチャする音声対単位処理パイプラインを提案する。
言語モデルでは、両タイプの表現を組み込むためにデュアルチャネルアーキテクチャを採用する。
論文 参考訳(メタデータ) (2024-02-02T10:39:58Z) - PVLR: Prompt-driven Visual-Linguistic Representation Learning for
Multi-Label Image Recognition [47.11517266162346]
本稿では,言語的モダリティの能力をよりよく活用するための,プロンプト駆動型視覚言語表現学習フレームワークを提案する。
従来の一方向融合とは対照的に,テキストと視覚的特徴の双方向相互作用を可能にするDMA(Dual-Modal Attention)を導入する。
論文 参考訳(メタデータ) (2024-01-31T14:39:11Z) - Label Aware Speech Representation Learning For Language Identification [49.197215416945596]
本稿では,自己指導型表現学習と事前学習タスクのための言語ラベル情報を組み合わせた新しいフレームワークを提案する。
このフレームワークは、ラベル認識音声表現(LASR)学習と呼ばれ、三重項に基づく目的関数を使用して、言語ラベルと自己教師付き損失関数を組み込む。
論文 参考訳(メタデータ) (2023-06-07T12:14:16Z) - Bidirectional Representations for Low Resource Spoken Language
Understanding [39.208462511430554]
双方向リッチ符号化における音声符号化のための表現モデルを提案する。
このアプローチでは、表現を学習するために、マスク付き言語モデリングの目的を使用する。
得られたエンコーディングの性能は、複数のデータセットで比較できるモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-24T17:05:16Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。