論文の概要: Semantic visually-guided acoustic highlighting with large vision-language models
- arxiv url: http://arxiv.org/abs/2601.08871v1
- Date: Mon, 12 Jan 2026 01:30:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.111306
- Title: Semantic visually-guided acoustic highlighting with large vision-language models
- Title(参考訳): 大きな視覚言語モデルを用いた意味的視覚誘導音響強調
- Authors: Junhua Huang, Chao Huang, Chenliang Xu,
- Abstract要約: 現在のオーディオミキシングは、手作業と労働集約がほとんどである。
コンディショニング信号としてどの視覚的側面が最も効果的かは定かではない。
我々は,どのビジュアル・セマンティック・キューがコヒーレントで視覚的に整合したオーディオリミックスを最も強くサポートしているかを同定する。
- 参考スコア(独自算出の注目度): 34.707752102338816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Balancing dialogue, music, and sound effects with accompanying video is crucial for immersive storytelling, yet current audio mixing workflows remain largely manual and labor-intensive. While recent advancements have introduced the visually guided acoustic highlighting task, which implicitly rebalances audio sources using multimodal guidance, it remains unclear which visual aspects are most effective as conditioning signals.We address this gap through a systematic study of whether deep video understanding improves audio remixing. Using textual descriptions as a proxy for visual analysis, we prompt large vision-language models to extract six types of visual-semantic aspects, including object and character appearance, emotion, camera focus, tone, scene background, and inferred sound-related cues. Through extensive experiments, camera focus, tone, and scene background consistently yield the largest improvements in perceptual mix quality over state-of-the-art baselines. Our findings (i) identify which visual-semantic cues most strongly support coherent and visually aligned audio remixing, and (ii) outline a practical path toward automating cinema-grade sound design using lightweight guidance derived from large vision-language models.
- Abstract(参考訳): 対話、音楽、サウンドエフェクトのバランスをとることは没入的なストーリーテリングには不可欠だが、現在のオーディオミキシングワークフローは手作業と労働集約がほとんどである。
近年,マルチモーダルガイダンスを用いて音声ソースを暗黙的にリバランスさせる音声強調タスクが導入されたが,どの視覚的側面が条件付け信号として最も有効かは不明であり,深層映像理解がオーディオリミックスを改善するかという体系的な研究を通じて,このギャップに対処する。
視覚分析の代用としてテキスト記述を用いて,物体やキャラクターの外観,感情,カメラフォーカス,トーン,シーン背景,推測音声関連手がかりなどを含む6種類の視覚的セマンティックな側面を抽出する。
大規模な実験を通じて、カメラフォーカス、トーン、シーン背景は、最先端のベースラインよりも知覚混合品質の最大の改善をもたらす。
私たちの発見
(i)コヒーレントで視覚的に整合したオーディオリミックスを最も強く支援する視覚的セマンティックな手がかりを識別し、
(II)大規模な視覚言語モデルから導かれた軽量なガイダンスを用いて、撮影レベルの音響設計を自動化するための実践的な道筋を概説する。
関連論文リスト
- ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [47.14083940177122]
ThinkSoundは、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階 – セマンティック・コヒーレント,インタラクティブなオブジェクト中心の改良,ターゲット編集 – に分解する。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - Learning to Highlight Audio by Watching Movies [37.9846964966927]
本稿では,映像が案内する適切なハイライト効果を実現するために音声を変換することを目的とした,視覚誘導型音声強調機能を提案する。
私たちのモデルをトレーニングするために、映画に見られる巧妙なオーディオとビデオ制作を活用する、泥だらけのミックスデータセットも導入しました。
定量的評価と主観的評価の両面で,我々のアプローチは一貫していくつかのベースラインを上回ります。
論文 参考訳(メタデータ) (2025-05-17T22:03:57Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - Speech inpainting: Context-based speech synthesis guided by video [29.233167442719676]
本稿では,音声セグメントにおける音声合成の課題である音声-視覚音声の塗装問題に焦点をあてる。
本稿では,視覚的手がかりを生かし,劣化した音声の内容に関する情報を提供する音声-視覚変換器を用いた深層学習モデルを提案する。
また,音声認識のための大規模音声・視覚変換器であるAV-HuBERTで抽出した視覚的特徴が,音声合成にどのように適しているかを示す。
論文 参考訳(メタデータ) (2023-06-01T09:40:47Z) - Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning [3.6204417068568424]
映画やテレビ番組と呼ばれるバージョンを使って、クロスモーダルなコントラスト学習を強化しています。
提案手法では, 音声のみが異なる音声トラックの表現を学習する。
論文 参考訳(メタデータ) (2023-04-12T04:17:45Z) - Egocentric Audio-Visual Noise Suppression [11.113020254726292]
本稿では,エゴセントリックビデオの音声・視覚ノイズ抑圧について検討する。
ビデオカメラは、外界のオフスクリーンスピーカーのビューをエミュレートします。
まず,エゴセントリックな視覚情報が騒音抑制に有効であることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:53:12Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。