論文の概要: Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval
- arxiv url: http://arxiv.org/abs/2508.04273v1
- Date: Wed, 06 Aug 2025 09:58:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.668588
- Title: Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval
- Title(参考訳): オーディオが重要:ビデオモーメント検索のための重要度を意識したマルチグラニュラリティフュージョン
- Authors: Junan Lin, Daizong Liu, Xianke Chen, Xiaoye Qu, Xun Yang, Jixiang Zhu, Sanyuan Zhang, Jianfeng Dong,
- Abstract要約: Video Moment Retrieval (VMR)は、特定のクエリに関連する特定のモーメントを検索することを目的としている。
既存のVMRメソッドの多くは、補完的ではあるが重要なオーディオのモダリティを無視しながら、視覚的およびテキスト的モダリティにのみ焦点をあてている。
本稿では,VMRの音声ビジョンコンテキストを動的かつ選択的に集約する,新しいImportance-Aware Multi-Granularity fusion Model (IMG)を提案する。
- 参考スコア(独自算出の注目度): 33.114796739109075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Moment Retrieval (VMR) aims to retrieve a specific moment semantically related to the given query. To tackle this task, most existing VMR methods solely focus on the visual and textual modalities while neglecting the complementary but important audio modality. Although a few recent works try to tackle the joint audio-vision-text reasoning, they treat all modalities equally and simply embed them without fine-grained interaction for moment retrieval. These designs are counter-practical as: Not all audios are helpful for video moment retrieval, and the audio of some videos may be complete noise or background sound that is meaningless to the moment determination. To this end, we propose a novel Importance-aware Multi-Granularity fusion model (IMG), which learns to dynamically and selectively aggregate the audio-vision-text contexts for VMR. Specifically, after integrating the textual guidance with vision and audio separately, we first design a pseudo-label-supervised audio importance predictor that predicts the importance score of the audio, and accordingly assigns weights to mitigate the interference caused by noisy audio. Then, we design a multi-granularity audio fusion module that adaptively fuses audio and visual modalities at local-, event-, and global-level, fully capturing their complementary contexts. We further propose a cross-modal knowledge distillation strategy to address the challenge of missing audio modality during inference. To evaluate our method, we further construct a new VMR dataset, i.e., Charades-AudioMatter, where audio-related samples are manually selected and re-organized from the original Charades-STA to validate the model's capability in utilizing audio modality. Extensive experiments validate the effectiveness of our method, achieving state-of-the-art with audio-video fusion in VMR methods. Our code is available at https://github.com/HuiGuanLab/IMG.
- Abstract(参考訳): Video Moment Retrieval (VMR)は、所定のクエリに関連する特定のモーメントを検索することを目的としている。
この課題に対処するため、既存のVMRメソッドのほとんどは、補完的ではあるが重要なオーディオモーダル性を無視しながら、視覚的およびテキスト的モーダル性にのみ焦点をあてている。
最近のいくつかの研究は、共同音声ビジョンテキスト推論に対処しようとしているが、全てのモダリティを等しく扱い、モーメント検索のためのきめ細かい相互作用を伴わずに埋め込む。
全てのオーディオがビデオモーメントの検索に役立つわけではないし、一部のビデオの音声は完全なノイズや背景音であり、モーメントの決定には意味がない。
そこで本研究では,VMRの音声ビジョンコンテキストを動的かつ選択的に集約する,新しいImportance-Aware Multi-Granularity fusion Model (IMG)を提案する。
具体的には、テキストガイダンスを視覚と音声を別々に統合した後、まず、音声の重要度を予測する擬似ラベル付き音声重要度予測器を設計し、それに基づいて重み付けを行い、ノイズの多い音声による干渉を軽減する。
そこで我々は,局所,イベントレベル,グローバルレベルの音響と視覚を適応的に融合する多粒性オーディオ融合モジュールを設計し,その相補的コンテキストをフルに捉えた。
さらに,提案手法は,推論中の音響モダリティの欠如に対処するために,クロスモーダルな知識蒸留手法を提案する。
提案手法を評価するため,新たなVMRデータセットであるCharades-AudioMatterを構築した。
広汎な実験により,VMR法における音声-ビデオ融合による最先端技術の実現と本手法の有効性が検証された。
私たちのコードはhttps://github.com/HuiGuanLab/IMG.comで公開されています。
関連論文リスト
- ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - Seeing Voices: Generating A-Roll Video from Audio with Mirage [12.16029287095035]
ビデオ生成への現在のアプローチは、音声を無視して汎用的だがサイレントな画像シーケンス生成に焦点を当てている。
音声入力が与えられたスクラッチからリアルで表現力のある出力画像を生成するのに優れるオーディオ・ビデオ基盤モデルであるMirageを紹介する。
論文 参考訳(メタデータ) (2025-06-09T22:56:02Z) - Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。
11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。
本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文 参考訳(メタデータ) (2024-09-27T12:06:53Z) - Language-based Audio Moment Retrieval [14.227865973426843]
音声モーメント検索(AMR)と呼ばれる新しいタスクを提案し設計する。
従来の言語ベースの音声検索タスクとは異なり、AMRはテキストクエリに基づいて、未編集の長い音声の関連モーメントを予測することを目的としている。
我々は、モーメントアノテーションを付加した大規模なシミュレーションオーディオ録音からなる専用のデータセット、Clatho-Momentを構築した。
次に、AMRタスクの基本的なフレームワークとして、Audio Moment DETR (AM-DETR) と呼ばれるDETRベースのモデルを提案する。
論文 参考訳(メタデータ) (2024-09-24T02:24:48Z) - Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - Audio-aware Query-enhanced Transformer for Audio-Visual Segmentation [22.28510611697998]
本稿では,この課題に対処するための新しいtextbfAudio-aware query-enhanced textbfTRansformer (AuTR) を提案する。
既存の手法とは異なり,本手法では,音声・視覚機能の深層融合と集約を可能にするマルチモーダルトランスフォーマーアーキテクチャを導入している。
論文 参考訳(メタデータ) (2023-07-25T03:59:04Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。