論文の概要: Speech-Image Semantic Alignment Does Not Depend on Any Prior
Classification Tasks
- arxiv url: http://arxiv.org/abs/2010.15288v1
- Date: Thu, 29 Oct 2020 00:14:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 22:43:27.845711
- Title: Speech-Image Semantic Alignment Does Not Depend on Any Prior
Classification Tasks
- Title(参考訳): 音声画像のセマンティックアライメントはいかなる事前分類課題にも依存しない
- Authors: Masood S. Mortazavi
- Abstract要約: 意味的に整列された$(speech, image)$データセットは、"視覚的に接地された音声"を探索するために使用することができる。
事前訓練されたネットワークは、セマンティック埋め込みの前に音声特徴を抽出するために使用される。
- 参考スコア(独自算出の注目度): 6.167849162878747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantically-aligned $(speech, image)$ datasets can be used to explore
"visually-grounded speech". In a majority of existing investigations, features
of an image signal are extracted using neural networks "pre-trained" on other
tasks (e.g., classification on ImageNet). In still others, pre-trained networks
are used to extract audio features prior to semantic embedding. Without
"transfer learning" through pre-trained initialization or pre-trained feature
extraction, previous results have tended to show low rates of recall in $speech
\rightarrow image$ and $image \rightarrow speech$ queries.
Choosing appropriate neural architectures for encoders in the speech and
image branches and using large datasets, one can obtain competitive recall
rates without any reliance on any pre-trained initialization or feature
extraction: $(speech,image)$ semantic alignment and $speech \rightarrow image$
and $image \rightarrow speech$ retrieval are canonical tasks worthy of
independent investigation of their own and allow one to explore other
questions---e.g., the size of the audio embedder can be reduced significantly
with little loss of recall rates in $speech \rightarrow image$ and $image
\rightarrow speech$ queries.
- Abstract(参考訳): 意味的に整列した$(speech, image)$データセットは、"視覚的に接地した音声"を探索するために使用できる。
既存の調査の大部分では、画像信号の特徴は他のタスク(例えば、imagenetの分類)で"事前学習"されたニューラルネットワークを使用して抽出される。
さらに、事前学習されたネットワークは、意味的埋め込みの前に音声の特徴を抽出するために使われる。
事前訓練された初期化や事前訓練された特徴抽出による"トランスファーラーニング"がなければ、以前の結果は$speech \rightarrow image$と$image \rightarrow speech$クエリでのリコール率の低い傾向にある。
Choosing appropriate neural architectures for encoders in the speech and image branches and using large datasets, one can obtain competitive recall rates without any reliance on any pre-trained initialization or feature extraction: $(speech,image)$ semantic alignment and $speech \rightarrow image$ and $image \rightarrow speech$ retrieval are canonical tasks worthy of independent investigation of their own and allow one to explore other questions---e.g., the size of the audio embedder can be reduced significantly with little loss of recall rates in $speech \rightarrow image$ and $image \rightarrow speech$ queries.
関連論文リスト
- Bytes Are All You Need: Transformers Operating Directly On File Bytes [55.81123238702553]
推論時にファイルの復号化を必要とせず、ファイルバイトの分類を行うことにより、モダリティ非依存表現学習について検討する。
私たちのモデルであるByteFormerは、ImageNet Top-1の分類精度を$5%改善します。
我々は、同じByteFormerアーキテクチャが、修正やモダリティ固有の前処理なしでオーディオ分類を行うことができることを示した。
論文 参考訳(メタデータ) (2023-05-31T23:18:21Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Zero-Shot Audio Classification using Image Embeddings [16.115449653258356]
非線形音響シーマンティック・プロジェクションを用いてゼロショット音声分類のサイド情報として画像埋め込みを導入する。
画像埋め込みは,ゼロショット音声分類を行うための意味情報として利用できることを示す。
論文 参考訳(メタデータ) (2022-06-10T10:36:56Z) - Reproducing BowNet: Learning Representations by Predicting Bags of
Visual Words [2.1485350418225244]
本研究は,GidarisらによるCVPR 2020論文の成果を再現することを目的としている。
本研究は,頑健で深層表現を学習するための自己教師型学習ターゲットとして,back-of-words (BoW) Deep Feature Descriptorsの使用を提案する。
論文 参考訳(メタデータ) (2022-01-10T07:00:22Z) - Semantic-Aware Generation for Self-Supervised Visual Representation
Learning [116.5814634936371]
セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。
SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2021-11-25T16:46:13Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - Controlled Caption Generation for Images Through Adversarial Attacks [85.66266989600572]
画像特徴抽出には畳み込みニューラルネットワーク(CNN)、キャプション生成にはリカレントニューラルネットワーク(RNN)が使用される。
特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。
本稿では、CNNの内部表現を模倣したニューラルネットワークキャプションの逆例を作成するためのGANベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-07T07:22:41Z) - Talk, Don't Write: A Study of Direct Speech-Based Image Retrieval [13.40010612226968]
共同表現学習のプロキシとして,音声に基づく画像検索が研究されている。
音声に基づく検索が実際にどれだけうまく機能するかは不明だ。
音声の自発的,アクセント的,あるいは自動書き起こしが難しい場合には,asr-to-textエンコーディングのカスケードを克服できる。
論文 参考訳(メタデータ) (2021-04-05T13:11:40Z) - VirTex: Learning Visual Representations from Textual Annotations [25.104705278771895]
VirTexは、意味的に密接なキャプションを使用して視覚表現を学習する事前学習のアプローチである。
我々はCOCOキャプションのスクラッチから畳み込みネットワークを訓練し、それらを下流認識タスクに転送する。
すべてのタスクにおいて、VirTexはImageNetで学んだもの(教師なしまたは教師なし)と一致するか、あるいは超える機能を提供します。
論文 参考訳(メタデータ) (2020-06-11T17:58:48Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。