論文の概要: Audio-Visual Intelligence in Large Foundation Models
- arxiv url: http://arxiv.org/abs/2605.04045v1
- Date: Tue, 05 May 2026 17:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:44.078223
- Title: Audio-Visual Intelligence in Large Foundation Models
- Title(参考訳): 大規模基礎モデルにおけるオーディオ・ビジュアル・インテリジェンス
- Authors: You Qin, Kai Liu, Shengqiong Wu, Kai Wang, Shijian Deng, Yapeng Tian, Junbin Xiao, Yazhou Xing, Yinghao Ma, Bobo Li, Roger Zimmermann, Lei Cui, Furu Wei, Jiebo Luo, Hao Fei,
- Abstract要約: オーディオ・ビジュアル・インテリジェンス(AVI)は人工知能の中心的フロンティアとして登場した。
急激な進歩にもかかわらず、文学は断片化され、多種多様なタスク、一貫性のない、異質な評価慣行にまたがっている。
この調査は、大規模な基盤モデルのレンズを通して、AVIに関する最初の包括的なレビューを提供する。
- 参考スコア(独自算出の注目度): 123.78167820053545
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audio-Visual Intelligence (AVI) has emerged as a central frontier in artificial intelligence, bridging auditory and visual modalities to enable machines that can perceive, generate, and interact in the multimodal real world. In the era of large foundation models, joint modeling of audio and vision has become increasingly crucial, i.e., not only for understanding but also for controllable generation and reasoning across dynamic, temporally grounded signals. Recent advances, such as Meta MovieGen and Google Veo-3, highlight the growing industrial and academic focus on unified audio-vision architectures that learn from massive multimodal data. However, despite rapid progress, the literature remains fragmented, spanning diverse tasks, inconsistent taxonomies, and heterogeneous evaluation practices that impede systematic comparison and knowledge integration. This survey provides the first comprehensive review of AVI through the lens of large foundation models. We establish a unified taxonomy covering the broad landscape of AVI tasks, ranging from understanding (e.g., speech recognition, sound localization) to generation (e.g., audio-driven video synthesis, video-to-audio) and interaction (e.g., dialogue, embodied, or agentic interfaces). We synthesize methodological foundations, including modality tokenization, cross-modal fusion, autoregressive and diffusion-based generation, large-scale pretraining, instruction alignment, and preference optimization. Furthermore, we curate representative datasets, benchmarks, and evaluation metrics, offering a structured comparison across task families and identifying open challenges in synchronization, spatial reasoning, controllability, and safety. By consolidating this rapidly expanding field into a coherent framework, this survey aims to serve as a foundational reference for future research on large-scale AVI.
- Abstract(参考訳): オーディオ・ビジュアル・インテリジェンス(AVI)は、人工知能の中心的フロンティアとして現れ、聴覚と視覚のモダリティをブリッジして、マルチモーダルな現実世界で知覚、生成、相互作用できるマシンを可能にしている。
大規模基盤モデルの時代には、音声と視覚のジョイントモデリングがますます重要になっている。
Meta MovieGenやGoogle Veo-3といった最近の進歩は、巨大なマルチモーダルデータから学ぶ統合オーディオビジョンアーキテクチャへの産業的および学術的焦点の増大を強調している。
しかし、急激な進歩にもかかわらず、文献は断片化され、多様なタスク、一貫性のない分類学、そして体系的な比較と知識の統合を妨げる異質な評価プラクティスにまたがっている。
この調査は、大規模な基盤モデルのレンズを通して、AVIに関する最初の包括的なレビューを提供する。
我々は、AVIタスクの広い視野をカバーする統一分類法を確立し、理解(例えば、音声認識、音像定位)から生成(例えば、音声駆動ビデオ合成、ビデオ音声合成)、相互作用(例えば、対話、エンボディド、エージェントインタフェース)までを網羅する。
我々は,モダリティトークン化,クロスモーダル融合,自己回帰と拡散に基づく生成,大規模事前学習,命令アライメント,優先最適化などの方法論の基礎を合成する。
さらに、代表的なデータセット、ベンチマーク、評価メトリクスをキュレートし、タスクファミリ間で構造化された比較を提供し、同期、空間的推論、制御可能性、安全性におけるオープンな課題を特定します。
この急速に拡大する分野をコヒーレントな枠組みに集約することにより,大規模AVI研究の基盤となることを目指す。
関連論文リスト
- Vision-and-Language Navigation for UAVs: Progress, Challenges, and a Research Roadmap [10.048113624715151]
UAV-VLN (Vision-and-Language Navigation for Unmanned Aerial Vehicles) は、人工知能において重要な課題である。
本稿では,その形式的タスク定義から現状まで,その分野を包括的かつ構造化した調査を行う。
論文 参考訳(メタデータ) (2026-04-15T09:20:02Z) - GMS-CAVP: Improving Audio-Video Correspondence with Multi-Scale Contrastive and Generative Pretraining [64.72014392166625]
GMS-CAVPは、マルチスケールビデオ・オーディオアライメントとマルチスケール空間時間拡散に基づく事前学習目的を組み合わせた、新しいフレームワークである。
まず、GMS-CAVPは、様々な粒度にわたる意味的および時間的関係をキャプチャするマルチスケールのコントラスト学習戦略を導入する。
第2に、拡散に基づく生成目的を組み込むことにより、従来のコントラスト学習を超越し、ビデオとオーディオ間のモダリティ変換と合成を可能にする。
論文 参考訳(メタデータ) (2026-01-27T13:43:32Z) - Scalable Audio-Visual Masked Autoencoders for Efficient Affective Video Facial Analysis [11.373305523732718]
Affective Video Face Analysis (AVFA) は感情認識知能システム構築の鍵となる研究分野として浮上している。
Masked Autoencoders (MAE) が勢いを増し、オーディオ・ビジュアル・コンテキストへの適応が増加している。
AVF-MAE++(AVF-MAE++)は、AVFAのスケーリング特性を効率的に調査するために設計されたオーディオビジュアルMAEモデルのファミリーである。
論文 参考訳(メタデータ) (2025-09-29T02:53:49Z) - From Waveforms to Pixels: A Survey on Audio-Visual Segmentation [43.79010208565961]
Audio-Visualは、ビジュアルとオーディオの両方のモダリティを活用して、ビデオ内の音声生成オブジェクトを識別し、セグメント化することを目的としている。
本稿では、AVS分野の概要を概説し、その問題定式化、ベンチマークデータセット、評価指標、方法論の進歩について述べる。
論文 参考訳(メタデータ) (2025-07-29T22:20:51Z) - Are Unified Vision-Language Models Necessary: Generalization Across Understanding and Generation [50.22361866757033]
統合視覚言語モデル(VLM)は、視覚的理解と生成機能の両方を統合する。
本稿では,統一VLMにおける理解・生成タスクの一般化を体系的に検討する。
論文 参考訳(メタデータ) (2025-05-29T03:40:21Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision [49.073964142139495]
マルチモーダル融合法と視覚言語モデルの適用と進歩を体系的に検討する。
セマンティックシーン理解タスクでは、エンコーダデコーダフレームワーク、アテンションベースアーキテクチャ、グラフニューラルネットワークに融合アプローチを分類する。
クロスモーダルアライメント、効率的な融合、リアルタイムデプロイメント、ドメイン適応など、現在の研究における重要な課題を特定します。
論文 参考訳(メタデータ) (2025-04-03T10:53:07Z) - Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense
Interactions through Masked Modeling [24.346868432774453]
人間は聴覚情報と視覚情報を統合でき、周囲の環境をより深く理解することができる。
認知心理学と神経科学の研究を通じて実証された、音声と視覚の早期融合は、マルチモーダル知覚モデルを開発するための有望な可能性を提供する。
初期融合によるオーディオ・ビジュアル・エンコーダの訓練にマスク付き再構成フレームワークを活用することで、早期融合アーキテクチャの訓練に対処する。
本研究では,局所的な音声と視覚的表現の相互作用を捉え,細粒度な相互作用を捕捉するモデルの能力を向上する,注意に基づく融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-02T03:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。