論文の概要: Pushing the Frontier of Audiovisual Perception with Large-Scale Multimodal Correspondence Learning
- arxiv url: http://arxiv.org/abs/2512.19687v1
- Date: Mon, 22 Dec 2025 18:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.89637
- Title: Pushing the Frontier of Audiovisual Perception with Large-Scale Multimodal Correspondence Learning
- Title(参考訳): 大規模マルチモーダル対応学習による視覚知覚の最前線
- Authors: Apoorv Vyas, Heng-Jui Chang, Cheng-Fu Yang, Po-Yao Huang, Luya Gao, Julius Richter, Sanyuan Chen, Matt Le, Piotr Dollár, Christoph Feichtenhofer, Ann Lee, Wei-Ning Hsu,
- Abstract要約: Perception Audiovisual(PE-AV)は、大規模コントラスト学習で訓練された音声およびビデオ理解のためのエンコーダの新たなファミリーである。
PE上に構築されたPE-AVは、オーディオへの表現の拡張にいくつかの重要な貢献を行い、オーディオ・ビデオ、オーディオ・テキスト、ビデオ・テキスト・モダリティ間の共同埋め込みをサポートする。
- 参考スコア(独自算出の注目度): 44.518249924335045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Perception Encoder Audiovisual, PE-AV, a new family of encoders for audio and video understanding trained with scaled contrastive learning. Built on PE, PE-AV makes several key contributions to extend representations to audio, and natively support joint embeddings across audio-video, audio-text, and video-text modalities. PE-AV's unified cross-modal embeddings enable novel tasks such as speech retrieval, and set a new state of the art across standard audio and video benchmarks. We unlock this by building a strong audiovisual data engine that synthesizes high-quality captions for O(100M) audio-video pairs, enabling large-scale supervision consistent across modalities. Our audio data includes speech, music, and general sound effects-avoiding single-domain limitations common in prior work. We exploit ten pairwise contrastive objectives, showing that scaling cross-modality and caption-type pairs strengthens alignment and improves zero-shot performance. We further develop PE-A-Frame by fine-tuning PE-AV with frame-level contrastive objectives, enabling fine-grained audio-frame-to-text alignment for tasks such as sound event detection.
- Abstract(参考訳): 本稿では,大規模コントラスト学習で学習した音声およびビデオ理解のための新しいエンコーダであるPerception Encoder Audiovisual PE-AVを紹介する。
PE上に構築されたPE-AVは、オーディオへの表現の拡張にいくつかの重要な貢献を行い、オーディオビデオ、オーディオテキスト、ビデオテキストのモダリティ間の共同埋め込みをネイティブにサポートする。
PE-AVのクロスモーダル埋め込みは、音声検索のような新しいタスクを可能にし、標準オーディオおよびビデオベンチマークにまたがる新しい最先端を設定できる。
我々は、O(100M)オーディオビデオ対の高品質なキャプションを合成する強力なオーディオヴィジュアルデータエンジンを構築することで、これを解き放つ。
音声データには、先行作業に共通する音声、音楽、一般音響効果を回避した単一領域制限が含まれている。
我々は10対のコントラスト的目標を利用して、クロスモダリティとキャプション型ペアのスケーリングによりアライメントが強化され、ゼロショット性能が向上することを示す。
さらに,PE-AVをフレームレベルのコントラスト目標に微調整することで,音声イベント検出などのタスクに対して細粒度な音声フレームとテキストのアライメントを可能にするPE-A-Frameを開発した。
関連論文リスト
- ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [47.14083940177122]
ThinkSoundは、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階 – セマンティック・コヒーレント,インタラクティブなオブジェクト中心の改良,ターゲット編集 – に分解する。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation [17.95017332858846]
本稿では,視覚表現学習と視覚音声生成のギャップを埋める新しいフレームワークであるVision to Audio and Beyond(VAB)を紹介する。
VABは、事前訓練されたオーディオトークンライザと画像エンコーダを使用して、それぞれ音声トークンと視覚的特徴を取得する。
実験では,ビデオから高品質な音声を生成するためのVABの効率と,セマンティック・オーディオ・視覚的特徴を習得する能力について紹介した。
論文 参考訳(メタデータ) (2024-09-27T20:26:34Z) - Empowering LLMs with Pseudo-Untrimmed Videos for Audio-Visual Temporal Understanding [36.20990265600332]
PU-VALORは114,000本以上の擬似アンリム化ビデオと詳細な時間的アノテーションを含む包括的オーディオ視覚データセットである。
PU-VALORは、イベントベースのビデオクラスタリングを含む微妙な方法で、大規模だが粗い注釈付きオーディオ視覚データセットVALORから派生した。
AVicunaは、音声・視覚イベントを時間間隔と対応するテキストトークンに整列できるモデルである。
論文 参考訳(メタデータ) (2024-03-24T19:50:49Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。