論文の概要: ToS: A Team of Specialists ensemble framework for Stereo Sound Event Localization and Detection with distance estimation in Video
- arxiv url: http://arxiv.org/abs/2601.17611v1
- Date: Sat, 24 Jan 2026 22:26:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.021037
- Title: ToS: A Team of Specialists ensemble framework for Stereo Sound Event Localization and Detection with distance estimation in Video
- Title(参考訳): ToS:ビデオ中の距離推定によるステレオ音事象の定位と検出のための特殊アンサンブルフレームワークのチーム
- Authors: Davide Berghi, Philip J. B. Jackson,
- Abstract要約: マルチモーダルタスクには 意味論、空間論、時間論の 共同推論が必要です
本稿では,3つの補助サブネットワークを統合したToSアンサンブルフレームワークについて紹介する。
ToSはDCASE2025 Task 3 Stereo SELD開発セットの3D SELDの最先端オーディオ視覚モデルに対してベンチマークされている。
- 参考スコア(独自算出の注目度): 5.010383717530127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sound event localization and detection with distance estimation (3D SELD) in video involves identifying active sound events at each time frame while estimating their spatial coordinates. This multimodal task requires joint reasoning across semantic, spatial, and temporal dimensions, a challenge that single models often struggle to address effectively. To tackle this, we introduce the Team of Specialists (ToS) ensemble framework, which integrates three complementary sub-networks: a spatio-linguistic model, a spatio-temporal model, and a tempo-linguistic model. Each sub-network specializes in a unique pair of dimensions, contributing distinct insights to the final prediction, akin to a collaborative team with diverse expertise. ToS has been benchmarked against state-of-the-art audio-visual models for 3D SELD on the DCASE2025 Task 3 Stereo SELD development set, consistently outperforming existing methods across key metrics. Future work will extend this proof of concept by strengthening the specialists with appropriate tasks, training, and pre-training curricula.
- Abstract(参考訳): ビデオ内の音事象の定位と距離推定による検出(3D SELD)は、空間座標を推定しながら各時間フレームにおけるアクティブな音事象を識別する。
このマルチモーダルなタスクは、意味論、空間論、時間的次元をまたいだ共同推論を必要とする。
そこで,本稿では,時空間モデル,時空間モデル,テンポ言語モデルという3つの補完的なサブネットワークを統合したToS(Team of Specialists)アンサンブルフレームワークを紹介する。
それぞれのサブネットワークは、ユニークな次元のペアを専門としており、さまざまな専門知識を持つ共同チームと同様、最終的な予測に明確な洞察を与えています。
ToSはDCASE2025 Task 3 Stereo SELD開発セットの3D SELDの最先端オーディオビジュアルモデルに対してベンチマークされ、キーメトリクス間で既存のメソッドを一貫して上回っている。
今後の研究は、専門家を適切なタスク、トレーニング、事前訓練のカリキュラムで強化することで、この概念の証明を拡張します。
関連論文リスト
- Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound [5.591620304505415]
この研究は、AVWM (Audio-Visual World Models) のための最初の公式なフレームワークを提示する。
マルチモーダル環境シミュレーションを、部分的に観察可能な決定プロセスとして定式化し、音声・視覚的観察、きめ細かいアクション、タスク報酬を提供する。
本稿では,視覚学習と聴覚学習のバランスをとる新しいモダリティ・エキスパート・アーキテクチャを用いたオーディオ・ビジュアル・コンディショナル・トランスフォーマーを提案する。
論文 参考訳(メタデータ) (2025-11-30T13:11:56Z) - AudioScene: Integrating Object-Event Audio into 3D Scenes [19.66595321540055]
本稿では,AudioScanNetとAudioRobothorという2つの新しいオーディオ空間シーンデータセットを提案する。
音声クリップと空間的に整列した3Dシーンを統合することで、我々のデータセットは、音声信号が空間的文脈とどのように相互作用するかの研究を可能にする。
論文 参考訳(メタデータ) (2025-11-25T14:28:13Z) - Integrating Spatial and Semantic Embeddings for Stereo Sound Event Localization in Videos [5.010383717530127]
3D SELDは時間的事象分類と空間的局所化を組み合わせた複雑なタスクである。
従来のSELDアプローチは一般的にマルチチャネル入力に依存している。
我々は,事前学習されたコントラスト言語対応モデルを統合することで,意味情報を用いた標準的なSELDアーキテクチャを強化する。
論文 参考訳(メタデータ) (2025-09-08T12:07:32Z) - Spatial and Semantic Embedding Integration for Stereo Sound Event Localization and Detection in Regular Videos [3.2472293599354596]
本報告では,DCASE2025 Task 3 Challenge: Stereo Sound Event Localization and Detection in regular Video Contentの音声のみおよび音声視覚トラックに提案するシステムについて述べる。
SELDは、時間的事象分類と空間的局所化を組み合わせた複雑なタスクであり、空間的、時間的、意味的な次元にわたって推論を必要とする。
そこで本研究では,音声用CLAPと視覚入力用OWL-ViTという,事前学習型コントラスト言語対応モデルを統合することで,セマンティック情報を用いた標準的なSELDアーキテクチャを強化した。
論文 参考訳(メタデータ) (2025-07-07T10:08:57Z) - UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines [64.84631333071728]
本稿では,時間的モデリングのためのトランスフォーマーベースの統合フレームワークであるbfUnistageを紹介する。
我々の研究は、タスク固有の視覚テキストが時間学習のための一般化可能なモデルを構築することができることを示した。
また、時間的ダイナミクスを明示的に組み込むための時間的モジュールも導入する。
論文 参考訳(メタデータ) (2025-03-26T17:33:23Z) - An Experimental Study on Joint Modeling for Sound Event Localization and Detection with Source Distance Estimation [3.2637535969755858]
3D SELDタスクは、ソース距離推定を統合することで制限に対処する。
本稿では,この課題に対処するための3つのアプローチを提案する。
提案手法は,DCASE 2024 Challenge Task 3において,関節モデリングの有効性を実証した。
論文 参考訳(メタデータ) (2025-01-18T12:57:21Z) - A Unified Framework for 3D Scene Understanding [50.6762892022386]
UniSeg3Dは統合された3Dシーン理解フレームワークである。
単一のモデル内で、パノプティクス、セマンティック、インスタンス、インタラクティブ、参照、オープンボキャブラリセグメンテーションタスクを達成する。
論文 参考訳(メタデータ) (2024-07-03T16:50:07Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-10-02T08:49:56Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。