Fugu-MT 論文翻訳(概要): FLAP: Fast Language-Audio Pre-training

論文の概要: FLAP: Fast Language-Audio Pre-training

arxiv url: http://arxiv.org/abs/2311.01615v1
Date: Thu, 2 Nov 2023 21:58:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-06 15:50:06.721343
Title: FLAP: Fast Language-Audio Pre-training
Title（参考訳）: FLAP: 高速言語監査事前トレーニング
Authors: Ching-Feng Yeh, Po-Yao Huang, Vasu Sharma, Shang-Wen Li and Gargi Gosh
Abstract要約: 音声と言語表現を効率的に学習する自己教師型アプローチであるFast Language-Audio Pre-Training(FLAP)を提案する。効率性のために、FLAPは音声スペクトログラムトークンをランダムにドロップし、残りのトークンのみをセルフスーパービジョンにフォーカスする。 FLAPは、ペア化されたオーディオとテキストの表現を共有潜在空間で整列させることを学ぶ。
参考スコア（独自算出の注目度）: 16.46254370386555
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose Fast Language-Audio Pre-training (FLAP), a self-supervised approach that efficiently and effectively learns aligned audio and language representations through masking, contrastive learning and reconstruction. For efficiency, FLAP randomly drops audio spectrogram tokens, focusing solely on the remaining ones for self-supervision. Through inter-modal contrastive learning, FLAP learns to align paired audio and text representations in a shared latent space. Notably, FLAP leverages multiple augmented views via masking for inter-modal contrast and learns to reconstruct the masked portion of audio tokens. Moreover, FLAP leverages large language models (LLMs) to augment the text inputs, contributing to improved performance. These approaches lead to more robust and informative audio-text representations, enabling FLAP to achieve state-of-the-art (SoTA) performance on audio-text retrieval tasks on AudioCaps (achieving 53.0% R@1) and Clotho (achieving 25.5% R@1).
Abstract（参考訳）: 我々は,マスキング,コントラスト学習,再構築を通じて協調した音声および言語表現を効果的かつ効果的に学習する自己教師型アプローチであるFast Language-Audio Pre-training (FLAP)を提案する。効率性のために、FLAPは音声スペクトログラムトークンをランダムにドロップし、残りのトークンのみをセルフスーパービジョンにフォーカスする。モーダル間のコントラスト学習を通じて、flapはペアオーディオとテキストの表現を共有潜在空間で調整することを学ぶ。特にFLAPは、モーダルコントラストのマスキングによって複数の拡張ビューを活用し、音声トークンのマスキング部分の再構築を学ぶ。さらに、FLAPは大きな言語モデル(LLM)を活用してテキスト入力を強化し、パフォーマンスの向上に貢献している。これらのアプローチにより、FLAPはAudioCaps(53.0% R@1)とCloso(25.5% R@1)のオーディオテキスト検索タスクにおいて、より堅牢で情報的なオーディオテキスト表現を実現することができる。

関連論文リスト

SLAP: Scalable Language-Audio Pretraining with Variable-Duration Audio and Multi-Objective Training [31.192251626550203]
本稿では,言語とオーディオの事前学習を1億9900万のオーディオテキストペアに拡張するSLAPについて紹介する。 SLAPは、シングルステージトレーニングにおける自己監督とキャプションの損失を追加して対照的な損失を統一し、よりリッチな高密度オーディオ表現の学習を容易にする。
論文参考訳（メタデータ） (2026-01-18T21:36:19Z)
Revisiting Audio-language Pretraining for Learning General-purpose Audio Representation [30.42124709340273]
我々は,大規模音声テキストコーパスの制限,キャプションの多様性の不足,系統的な探索と評価の欠如の3つの主要な障壁を同定した。以上の結果から,音声による事前学習が,競合的かつ伝達可能な表現をもたらすことが示された。これらの知見は,汎用音声表現への有効な経路として,音声事前学習を確立した。
論文参考訳（メタデータ） (2025-11-20T19:17:35Z)
GLAP: General contrastive audio-text pretraining across domains and languages [26.996784244258073]
GLAP(General Language Audio Pretraining)を導入する。 GLAPは、マルチリンガルおよびマルチドメイン機能を備えたContrastive Language Audio Pretraining (CLAP)を拡張している。
論文参考訳（メタデータ） (2025-06-12T22:54:31Z)
From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T16:08:41Z)
PALM: Few-Shot Prompt Learning for Audio Language Models [1.6177972328875514]
音声言語モデル(ALM)は近年,ゼロショット音声認識タスクにおいて顕著な成功を収めている。本稿では,テキストエンコーダブランチの機能空間を最適化する新しい手法であるPrompt Learning in Audio Language Models (PALM)を提案する。本研究では,11の音声認識データセットに対するアプローチの有効性を実証し,その結果と3つのベースラインを数ショットの学習設定で比較する。
論文参考訳（メタデータ） (2024-09-29T22:06:07Z)
Audio-visual Generalized Zero-shot Learning the Easy Way [20.60905505473906]
本稿では,EZ-AVGZLについて述べる。我々は,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSLベンチマークについて広範な実験を行った。
論文参考訳（メタデータ） (2024-07-18T01:57:16Z)
Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。 0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文参考訳（メタデータ） (2024-05-12T07:59:46Z)
XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。 XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文参考訳（メタデータ） (2024-03-21T13:52:17Z)
Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing [56.71450690166821]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。 VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。ラベル付きデータのたった30時間で訓練されたVSP-LLMは、唇の動きをより効果的に翻訳できることを示す。
論文参考訳（メタデータ） (2024-02-23T07:21:32Z)
Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities [37.02115473120654]
音声を理解するために大きな言語モデル(LLM)を拡張することは、様々な現実世界のアプリケーションにとって非常に重要である。本稿では,1)強音声理解能力を備えた新しい音声言語モデルであるAudio Flamingoを提案する。
論文参考訳（メタデータ） (2024-02-02T18:58:34Z)
Weakly-supervised Automated Audio Captioning via text only training [1.504795651143257]
本稿では,テキストデータと事前学習されたCLAPモデルのみを前提として,AACモデルをトレーニングするための弱い教師付きアプローチを提案する。提案手法をClosoとAudioCapsのデータセット上で評価し,完全に教師されたアプローチと比較して,最大83%の相対的な性能を実現する能力を示した。
論文参考訳（メタデータ） (2023-09-21T16:40:46Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文参考訳（メタデータ） (2023-06-21T20:54:52Z)
MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup for Visual Speech Translation and Recognition [51.412413996510814]
視覚音声の訓練を正規化するために音声音声を利用する多目的自己学習フレームワークであるMixSpeechを提案する。 MixSpeechは雑音の多い環境での音声翻訳を強化し、AVMuST-TED上でのBLEUスコアを+1.4から+4.2に改善した。
論文参考訳（メタデータ） (2023-03-09T14:58:29Z)
VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文参考訳（メタデータ） (2022-11-21T09:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。