論文の概要: Learning Visual Affordance from Audio
- arxiv url: http://arxiv.org/abs/2512.02005v1
- Date: Mon, 01 Dec 2025 18:58:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:35.034776
- Title: Learning Visual Affordance from Audio
- Title(参考訳): オーディオから視覚的習慣を学習する
- Authors: Lidong Lu, Guo Chen, Zhu Wei, Yicheng Liu, Tong Lu,
- Abstract要約: 動作音からオブジェクト間相互作用領域を分割する新しいタスクであるAV-AG(Audio-Visual Affordance Grounding)を導入する。
このタスクを支援するために,アクション音,オブジェクト画像,ピクセルレベルのアベイランスアノテーションの集合からなる,最初のAV-AGデータセットを構築した。
また,意味条件付きクロスモーダルミキサーとデュアルヘッドデコーダを備えたモデルであるAVAGFormerを提案する。
- 参考スコア(独自算出の注目度): 29.90423475741895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Audio-Visual Affordance Grounding (AV-AG), a new task that segments object interaction regions from action sounds. Unlike existing approaches that rely on textual instructions or demonstration videos, which often limited by ambiguity or occlusion, audio provides real-time, semantically rich, and visually independent cues for affordance grounding, enabling more intuitive understanding of interaction regions. To support this task, we construct the first AV-AG dataset, comprising a large collection of action sounds, object images, and pixel-level affordance annotations. The dataset also includes an unseen subset to evaluate zero-shot generalization. Furthermore, we propose AVAGFormer, a model equipped with a semantic-conditioned cross-modal mixer and a dual-head decoder that effectively fuses audio and visual signals for mask prediction. Experiments show that AVAGFormer achieves state-of-the-art performance on AV-AG, surpassing baselines from related tasks. Comprehensive analyses highlight the distinctions between AV-AG and AVS, the benefits of end-to-end modeling, and the contribution of each component. Code and dataset have been released on https://jscslld.github.io/AVAGFormer/.
- Abstract(参考訳): 動作音からオブジェクト間相互作用領域を分割する新しいタスクであるAV-AG(Audio-Visual Affordance Grounding)を導入する。
テキストによる指示やデモビデオに頼っている既存のアプローチとは異なり、オーディオは、しばしば曖昧さや隠蔽によって制限されるが、アベイランスグラウンドティングのためにリアルタイム、意味的にリッチで視覚的に独立した手がかりを提供し、対話領域をより直感的に理解することを可能にする。
このタスクを支援するために,アクション音,オブジェクト画像,ピクセルレベルのアベイランスアノテーションの集合からなる,最初のAV-AGデータセットを構築した。
データセットには、ゼロショットの一般化を評価する未確認サブセットも含まれている。
さらに,意味条件付きクロスモーダルミキサーとデュアルヘッドデコーダを備えたモデルであるAVAGFormerを提案する。
実験の結果, AVAGFormer は AV-AG 上での最先端のパフォーマンスを達成し, 関連するタスクのベースラインを超越していることがわかった。
包括的な分析では、AV-AGとAVSの区別、エンドツーエンドモデリングの利点、各コンポーネントの貢献が強調されている。
コードとデータセットはhttps://jscslld.github.io/AVAGFormer/でリリースされた。
関連論文リスト
- Revisiting Audio-Visual Segmentation with Vision-Centric Transformer [60.83798235788669]
AVS (Audio-Visual) は、オーディオ信号に基づいて、映像フレームに音声を生成するオブジェクトを分割することを目的としている。
本稿では,視覚由来の問合せを利用して,対応する音声や視覚情報を反復的に取得する視覚中心変換フレームワークを提案する。
我々のフレームワークは,AVSBenchデータセットの3つのサブセット上で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-30T08:40:36Z) - AV-CrossNet: an Audiovisual Complex Spectral Mapping Network for Speech Separation By Leveraging Narrow- and Cross-Band Modeling [48.23652686272613]
本稿では,音声強調,ターゲット話者抽出,複数話者分離のためのglsavシステムであるAV-CrossNetを紹介する。
AV-CrossNetは、最近提案された音声分離のための複雑なスペクトルマッピングを行うネットワークであるCrossNetアーキテクチャから拡張されている。
AV-CrossNetは、トレーニングされていないデータセットやミスマッチしたデータセットであっても、すべてのオーディオ視覚タスクにおける最先端のパフォーマンスを向上することを示す。
論文 参考訳(メタデータ) (2024-06-17T15:04:15Z) - Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language [77.33458847943528]
DenseAVは、ビデオ視聴のみで高解像度、意味論的、音声視覚的に整合した特徴を学習する、新しいデュアルエンコーダ基盤アーキテクチャである。
そこで本研究では,DenseAVによる単語の「意味」と音の「位置」の特定が可能であることを明らかにした。
論文 参考訳(メタデータ) (2024-06-09T03:38:21Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - AVATAR: Unconstrained Audiovisual Speech Recognition [75.17253531162608]
本稿では,ASR TrAnsformeR (AVATAR) を用いて,スペクトルとフルフレームRGBからエンドツーエンドにトレーニングした新しいシーケンス・ツー・シーケンスASR TrAnsformeRを提案する。
本稿では,ハウ2 AV-ASR ベンチマークにおける視覚的モダリティの寄与を,特にシミュレートノイズの存在下で実証する。
また、我々はAV-ASRのための新しい実世界テストベッドVisSpeechを作成し、挑戦的な音声条件下での視覚的モダリティの寄与を実証した。
論文 参考訳(メタデータ) (2022-06-15T17:33:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。