論文の概要: Acoustic Field Video for Multimodal Scene Understanding
- arxiv url: http://arxiv.org/abs/2601.17123v1
- Date: Fri, 23 Jan 2026 19:00:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.292686
- Title: Acoustic Field Video for Multimodal Scene Understanding
- Title(参考訳): マルチモーダルシーン理解のための音場映像
- Authors: Daehwa Kim, Chris Harrison,
- Abstract要約: 我々は、視覚言語モデルのための新しいマルチモーダル入力表現、すなわち、音場ビデオを導入し、探索する。
我々のビデオストリームは、シーン全体で音の強度を空間的に可視化する。
この結果から,視覚的・音声的入力のみに依存する場合,日常的なシーン理解作業が過小評価されていることが示唆された。
- 参考スコア(独自算出の注目度): 16.373883242536994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce and explore a new multimodal input representation for vision-language models: acoustic field video. Unlike conventional video (RGB with stereo/mono audio), our video stream provides a spatially grounded visualization of sound intensity across a scene, offering a new and powerful dimension of perceptual understanding. Our real-time pipeline uses low-cost beamforming microphone arrays that are already common in smart speakers and increasingly present in robotics and XR headsets, yet this sensing capability remains unutilized for scene understanding. To assess the value of spatial acoustic information, we constructed an evaluation set of 402 question-answer scenes, comparing a state-of-the-art VLM given conventional video with and without paired acoustic field video. Results show a clear and consistent improvement when incorporating spatial acoustic data; the VLM we test improves from 38.3% correct to 67.4%. Our findings highlight that many everyday scene understanding tasks remain underconstrained when relying solely on visual and audio input, and that acoustic field data provides a promising and practical direction for multimodal reasoning. A video demo is available at https://daehwakim.com/seeingsound
- Abstract(参考訳): 我々は、視覚言語モデルのための新しいマルチモーダル入力表現、すなわち、音場ビデオを導入し、探索する。
従来のビデオ(ステレオ/モノのオーディオ付きRGB)とは異なり、映像ストリームはシーン全体の音の強度を空間的に可視化し、知覚的理解の新たな強力な次元を提供する。
私たちのリアルタイムパイプラインは、スマートスピーカーではすでに一般的で、ロボティクスやXRヘッドセットでますます普及している、低コストのビームフォーミングマイクアレイを使っています。
空間音響情報の価値を評価するため,従来のVLMとペア付音場映像とを比較し,402の質問応答シーンの評価セットを構築した。
その結果, 空間音響データを取り入れた場合, 明瞭で一貫した改善が得られ, テスト対象のVLMは38.3%から67.4%に改善した。
本研究は,視覚的・音声的入力のみに頼っている場合,日常的なシーン理解作業の多くは過小評価され,音場データによってマルチモーダル推論のための有望かつ実用的な方向が導かれることを示した。
ビデオデモはhttps://daehwakim.com/seeingsoundで公開されている。
関連論文リスト
- CCStereo: Audio-Visual Contextual and Contrastive Learning for Binaural Audio Generation [21.58489462776634]
バイノーラルオーディオ生成(BAG)は、視覚的プロンプトを用いてモノラルオーディオをステレオオーディオに変換することを目的としている。
現在のモデルは、部屋の環境に過度に適合し、きめ細かい空間的詳細を失うリスクがある。
本稿では,音声-視覚条件正規化層を取り入れた新しい音声-視覚生成モデルを提案する。
論文 参考訳(メタデータ) (2025-01-06T06:04:21Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。
我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。
私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文 参考訳(メタデータ) (2022-01-07T19:00:21Z) - AVA-AVD: Audio-visual Speaker Diarization in the Wild [26.97787596025907]
既存のオーディオ視覚ダイアリゼーションデータセットは主に会議室やニューススタジオのような屋内環境に焦点を当てている。
本稿では,視覚情報に基づいて識別情報をキャプチャする効果的なモータリティマスクを導入した新しいオーディオ・ビジュアル・リレーション・ネットワーク(AVR-Net)を提案する。
論文 参考訳(メタデータ) (2021-11-29T11:02:41Z) - Exploiting Audio-Visual Consistency with Partial Supervision for Spatial
Audio Generation [45.526051369551915]
本論文では,モノラル映像を音声と視覚の要素間の関係を利用して変換するオーディオ空間化フレームワークを提案する。
ベンチマークデータセットに関する実験では,半教師ありシナリオと完全教師ありシナリオの両方において,提案フレームワークの有効性を確認した。
論文 参考訳(メタデータ) (2021-05-03T09:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。