論文の概要: Sounding that Object: Interactive Object-Aware Image to Audio Generation
- arxiv url: http://arxiv.org/abs/2506.04214v1
- Date: Wed, 04 Jun 2025 17:57:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.512006
- Title: Sounding that Object: Interactive Object-Aware Image to Audio Generation
- Title(参考訳): オブジェクトの音:対話型オブジェクト認識画像からオーディオ生成
- Authors: Tingle Li, Baihe Huang, Xiaobin Zhuang, Dongya Jia, Jiawei Chen, Yuping Wang, Zhuo Chen, Gopala Anumanchipalli, Yuxuan Wang,
- Abstract要約: 対話型オブジェクト認識音声生成モデルを提案する。
本手法は,オブジェクト中心学習を条件付き潜在拡散モデルに統合する。
テスト時には画像セグメンテーションを用いて,エムオブジェクトレベルで対話的に音を生成する。
- 参考スコア(独自算出の注目度): 17.09769449066842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating accurate sounds for complex audio-visual scenes is challenging, especially in the presence of multiple objects and sound sources. In this paper, we propose an {\em interactive object-aware audio generation} model that grounds sound generation in user-selected visual objects within images. Our method integrates object-centric learning into a conditional latent diffusion model, which learns to associate image regions with their corresponding sounds through multi-modal attention. At test time, our model employs image segmentation to allow users to interactively generate sounds at the {\em object} level. We theoretically validate that our attention mechanism functionally approximates test-time segmentation masks, ensuring the generated audio aligns with selected objects. Quantitative and qualitative evaluations show that our model outperforms baselines, achieving better alignment between objects and their associated sounds. Project page: https://tinglok.netlify.app/files/avobject/
- Abstract(参考訳): 複雑なオーディオ映像シーンの正確な音を生成することは、特に複数のオブジェクトや音源が存在する場合、困難である。
本稿では,画像中のユーザ選択された視覚オブジェクトの音声生成を基盤とした,対話型オブジェクト認識音声生成モデルを提案する。
対象中心学習を条件付き潜在拡散モデルに統合し,マルチモーダルアテンションを用いて画像領域と対応する音を関連づけることを学ぶ。
テスト時にはイメージセグメンテーションを用いて,ユーザが対話的に音を生成できるようにする。
我々は,提案手法がテスト時間セグメンテーションマスクを機能的に近似し,生成した音声が選択対象と一致することを理論的に検証した。
定量的および定性的な評価は,本モデルがベースラインより優れ,オブジェクトとその関連音のアライメントが向上することを示している。
プロジェクトページ: https://tinglok.netlify.app/files/avobject/
関連論文リスト
- Seeing Sound: Assembling Sounds from Visuals for Audio-to-Image Generation [6.169364905804677]
オーディオから画像への生成モデルの訓練には、意味的に整合した多様なオーディオと視覚のペアが多数必要である。
本稿では,様々な高品質で不整合なユニモーダル原点のインスタンスを人工的にペアリングできる,スケーラブルな画像ソリフィケーションフレームワークを提案する。
提案手法の有効性を示すため,本手法では,音素化画像を用いて,最先端技術に対して競争力のある音声画像生成モデルを訓練する。
論文 参考訳(メタデータ) (2025-01-09T18:13:57Z) - Object-aware Adaptive-Positivity Learning for Audio-Visual Question
Answering [27.763940453394902]
本稿では,未編集映像からの質問に答えることを目的としたAVQA(Audio-Visual Question Answering)タスクに焦点を当てた。
正確な回答を生成するために、AVQAモデルは与えられた質問に関連する最も情報に富む視覚的手がかりを見つけることを期待する。
論文 参考訳(メタデータ) (2023-12-20T07:36:38Z) - Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment [22.912401512161132]
我々は、各モデルコンポーネントの学習手順をスケジューリングして、オーディオ・視覚的モダリティを関連付けるモデルの設計を行う。
入力音声を視覚的特徴に変換し,事前学習した生成器を用いて画像を生成する。
VEGAS と VGGSound のデータセットは,従来の手法よりもかなりよい結果が得られる。
論文 参考訳(メタデータ) (2023-03-30T16:01:50Z) - Visual Acoustic Matching [92.91522122739845]
本稿では,音声クリップがターゲット環境に録音されたような音に変換される視覚的音響マッチングタスクを提案する。
対象の環境の画像とソースオーディオの波形が与えられた場合、その視覚的幾何学や材料によって示唆されるように、ターゲットの部屋の音響と一致するように、オーディオを再合成することが目的である。
論文 参考訳(メタデータ) (2022-02-14T17:05:22Z) - Class-aware Sounding Objects Localization via Audiovisual Correspondence [51.39872698365446]
複雑な視覚的シナリオにおける音像の局所化と認識を行うための2段階の学習フレームワークを提案する。
我々は、カクテルパーティーのシナリオでクラス認識オブジェクトのローカライズマップを生成し、サイレントエリアの抑制にオーディオ視覚対応を使用する。
実写ビデオと合成ビデオの両方の実験では、オブジェクトのローカライズと認識だけでなく、サイレントビデオのフィルタリングにも優れていることが示されている。
論文 参考訳(メタデータ) (2021-12-22T09:34:33Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Discriminative Sounding Objects Localization via Self-supervised
Audiovisual Matching [87.42246194790467]
自己教師付きクラス認識オブジェクトの定位を行うための2段階学習フレームワークを提案する。
我々は,無声オブジェクトをフィルタリングし,異なるクラスの音響オブジェクトの位置を指摘するのに,我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-10-12T05:51:55Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。