論文の概要: Segmenting Collision Sound Sources in Egocentric Videos
- arxiv url: http://arxiv.org/abs/2511.13863v1
- Date: Mon, 17 Nov 2025 19:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.763843
- Title: Segmenting Collision Sound Sources in Egocentric Videos
- Title(参考訳): エゴセントリックビデオにおける衝突音源のセグメンテーション
- Authors: Kranti Kumar Parida, Omar Emara, Hazel Doughty, Dima Damen,
- Abstract要約: 本研究の目的は、衝突音の原因となる物体を音声の視覚入力に分割することである。
孤立した音のイベントとは異なり、衝突音は2つの物体間の相互作用から生じ、衝突の音響的シグネチャは両方に依存する。
基礎モデル(CLIPとSAM2)を利用した音声条件セグメンテーションの弱教師付き手法を提案する。
- 参考スコア(独自算出の注目度): 29.14827389531298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans excel at multisensory perception and can often recognise object properties from the sound of their interactions. Inspired by this, we propose the novel task of Collision Sound Source Segmentation (CS3), where we aim to segment the objects responsible for a collision sound in visual input (i.e. video frames from the collision clip), conditioned on the audio. This task presents unique challenges. Unlike isolated sound events, a collision sound arises from interactions between two objects, and the acoustic signature of the collision depends on both. We focus on egocentric video, where sounds are often clear, but the visual scene is cluttered, objects are small, and interactions are brief. To address these challenges, we propose a weakly-supervised method for audio-conditioned segmentation, utilising foundation models (CLIP and SAM2). We also incorporate egocentric cues, i.e. objects in hands, to find acting objects that can potentially be collision sound sources. Our approach outperforms competitive baselines by $3\times$ and $4.7\times$ in mIoU on two benchmarks we introduce for the CS3 task: EPIC-CS3 and Ego4D-CS3.
- Abstract(参考訳): 人間は多感覚知覚において優れており、しばしば相互作用の音から物体の特性を認識することができる。
そこで本研究では,衝突音源分割(CS3)の新たな課題として,衝突音の原因となる物体を視覚的入力(例えば,衝突クリップからの映像フレーム)に分割することを提案する。
この課題には固有の課題が伴う。
孤立した音のイベントとは異なり、衝突音は2つの物体間の相互作用から生じ、衝突の音響的シグネチャは両方に依存する。
音声はしばしば明瞭だが、視覚的なシーンは散らかっていて、オブジェクトは小さく、インタラクションは短い。
これらの課題に対処するために,基礎モデル (CLIP, SAM2) を利用した音声条件セグメンテーションの弱教師付き手法を提案する。
また、衝突音源となる可能性のある作用物体を見つけるために、手にある物体という自我中心の手がかりも取り入れている。
当社のアプローチは、CS3タスクに導入したEPIC-CS3とEgo4D-CS3の2つのベンチマークで、mIoUの競争ベースラインを$3\times$と$4.7\times$で上回ります。
関連論文リスト
- Clink! Chop! Thud! -- Learning Object Sounds from Real-World Interactions [17.352378821998304]
そこで本研究では,これらの音を直接対象物にリンクするモデルの性能を評価するために,音響オブジェクト検出タスクを導入する。
人間の知覚にインスパイアされた私たちのマルチモーダルなオブジェクト認識フレームワークは、野生のエゴセントリックなビデオから学習します。
論文 参考訳(メタデータ) (2025-10-02T17:59:52Z) - 3D Audio-Visual Segmentation [52.34970001474347]
ロボット工学やAR/VR/MRに様々な応用がある。
本稿では,事前学習した2次元オーディオ視覚基盤モデルから,使用可能な知識を統合することで特徴付ける新しいアプローチであるEchoSegnetを提案する。
実験により、EchoSegnetは、私たちの新しいベンチマークで、3D空間の音声オブジェクトを効果的にセグメント化できることが実証された。
論文 参考訳(メタデータ) (2024-11-04T16:30:14Z) - BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation
Knowledge [43.92428145744478]
音声・視覚のセグメンテーションを行う2段階のブートストラップフレームワークを提案する。
第1段階では,視覚データから潜在的聴覚オブジェクトを局所化するためにセグメンテーションモデルを用いる。
第2段階では、音響-視覚的セマンティック統合戦略(AVIS)を開発し、音響-音響オブジェクトをローカライズする。
論文 参考訳(メタデータ) (2023-08-20T06:48:08Z) - Audio-Visual Segmentation by Exploring Cross-Modal Mutual Semantics [26.473529162341837]
本稿では,データセットバイアスを克服するために,音声-視覚的インスタンス認識セグメンテーション手法を提案する。
提案手法は,まずオブジェクト分割ネットワークによって映像中の潜在的音像を位置決めし,その音像候補と所定の音声を関連付ける。
AVSベンチマークによる実験結果から,本手法は健全な物体に偏ることなく効果的に音響オブジェクトを分割できることが示されている。
論文 参考訳(メタデータ) (2023-07-31T12:56:30Z) - Transavs: End-To-End Audio-Visual Segmentation With Transformer [33.56539999875508]
本稿では,トランスフォーマーをベースとしたオーディオ・ビジュアルタスクのためのエンドツーエンドフレームワークであるTransAVSを提案する。
TransAVSはオーディオストリームをオーディオクエリとして切り離し、画像と対話し、セグメンテーションマスクにデコードする。
実験の結果,TransAVS は AVSBench データセット上で最先端の結果を得ることができた。
論文 参考訳(メタデータ) (2023-05-12T03:31:04Z) - Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
EPIC-SOUNDSには78.4kの分類された音声イベントとアクションがあり、44のクラスと39.2kの非分類セグメントに分散している。
我々は、オーディオのみの手法とオーディオ視覚的手法の両方において、データセット上で最先端の音声認識および検出モデルを訓練し、評価する。
論文 参考訳(メタデータ) (2023-02-01T18:19:37Z) - Move2Hear: Active Audio-Visual Source Separation [90.16327303008224]
対象物からの音をより効果的に分離するために、エージェントがインテリジェントに動く必要があるアクティブオーディオビジュアルソース分離問題を紹介します。
エージェントのカメラとマイクロホン配置を時間とともに制御する移動ポリシーを訓練する強化学習アプローチを紹介します。
音源分離のための最大ペイオフで最小の動作シーケンスを見つけるモデルの能力を実証します。
論文 参考訳(メタデータ) (2021-05-15T04:58:08Z) - Cyclic Co-Learning of Sounding Object Visual Grounding and Sound
Separation [52.550684208734324]
音物体の視覚的接地と音声-視覚的音分離を共同学習できる循環的共学習パラダイムを提案する。
本稿では,提案フレームワークが両タスクの最近のアプローチを上回っていることを示す。
論文 参考訳(メタデータ) (2021-04-05T17:30:41Z) - Discriminative Sounding Objects Localization via Self-supervised
Audiovisual Matching [87.42246194790467]
自己教師付きクラス認識オブジェクトの定位を行うための2段階学習フレームワークを提案する。
我々は,無声オブジェクトをフィルタリングし,異なるクラスの音響オブジェクトの位置を指摘するのに,我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-10-12T05:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。