論文の概要: Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation
- arxiv url: http://arxiv.org/abs/2507.22886v2
- Date: Thu, 31 Jul 2025 03:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 13:02:07.73451
- Title: Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation
- Title(参考訳): オーディオ・ビジュアル・セグメンテーションにおけるOmnimodal ExpressionsとReasoningに向けて
- Authors: Kaining Ying, Henghui Ding, Guangquan Jie, Yu-Gang Jiang,
- Abstract要約: 提案するOmnimodal Referring Audio-Visual Expression (OmniAVS) は,2,104ビデオと61,095マルチモーダル参照式を含む新しいデータセットである。
OmniAVS は,(1) テキスト,音声,音声,視覚的手がかりを柔軟に組み合わせた8種類のマルチモーダル表現,(2) 存在を検出すること以上の音声コンテンツを理解することを重視すること,(3) 複雑な推論を表現に含めること,の3つの重要なイノベーションを指摘した。
- 参考スコア(独自算出の注目度): 68.4547223233201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring audio-visual segmentation (RAVS) has recently seen significant advancements, yet challenges remain in integrating multimodal information and deeply understanding and reasoning about audiovisual content. To extend the boundaries of RAVS and facilitate future research in this field, we propose Omnimodal Referring Audio-Visual Segmentation (OmniAVS), a new dataset containing 2,104 videos and 61,095 multimodal referring expressions. OmniAVS stands out with three key innovations: (1) 8 types of multimodal expressions that flexibly combine text, speech, sound, and visual cues; (2) an emphasis on understanding audio content beyond just detecting their presence; and (3) the inclusion of complex reasoning and world knowledge in expressions. Furthermore, we introduce Omnimodal Instructed Segmentation Assistant (OISA), to address the challenges of multimodal reasoning and fine-grained understanding of audiovisual content in OmniAVS. OISA uses MLLM to comprehend complex cues and perform reasoning-based segmentation. Extensive experiments show that OISA outperforms existing methods on OmniAVS and achieves competitive results on other related tasks.
- Abstract(参考訳): オーディオ・ビジュアル・セグメンテーション(RAVS)は近年顕著な進歩を遂げているが、マルチモーダル情報の統合とオーディオ・ヴィジュアル・コンテンツに対する深い理解と推論が課題である。
OmniAVS(OmniAVS:Omnimodal Referring Audio-Visual Segmentation)は2,104ビデオと61,095マルチモーダル参照表現を含む新しいデータセットである。
OmniAVS は,(1) テキスト,音声,音声,視覚的手がかりを柔軟に組み合わせた8種類のマルチモーダル表現,(2) 存在を検出すること以上の音声コンテンツを理解することを重視すること,(3) 複雑な推論と世界知識を表現に含めること,の3つの重要なイノベーションを指摘した。
さらに,OmniAVSにおけるマルチモーダル推論の課題に対処するためのOmnimodal Instructed Segmentation Assistant (OISA)を導入する。
OISAはMLLMを使って複雑なキューを理解し、推論に基づくセグメンテーションを実行する。
実験の結果,OISAはOmniAVSの既存手法よりも優れており,他のタスクと競合する結果が得られることがわかった。
関連論文リスト
- AVS-Mamba: Exploring Temporal and Multi-modal Mamba for Audio-Visual Segmentation [62.682428307810525]
音声・視覚的セグメンテーションタスクに対処する選択状態空間モデルであるAVS-Mambaを導入する。
我々のフレームワークはビデオ理解とクロスモーダル学習の2つの重要な要素を取り入れている。
提案手法は, AVSBench-object と AVS-semantic のデータセット上で, 最新の結果を実現する。
論文 参考訳(メタデータ) (2025-01-14T03:20:20Z) - Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time [73.7845280328535]
本稿では、画像と音声のきめ細かい理解を備えた音声視覚LLMであるMeerkatを紹介する。
Meerkatは、音声参照画像の接地、画像案内音声の時間的局所化、音声-視覚的事実チェックといった課題に取り組むことができる。
我々は、これらの下流タスクすべてにおいて、37.12%の相対的な改善で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-01T23:32:25Z) - Multimodal Variational Auto-encoder based Audio-Visual Segmentation [46.67599800471001]
ECMVAEは、各モダリティの表現をモダリティ共有表現とモダリティ固有表現で分解する。
当社のアプローチでは,3.84mIOUの性能向上を図りながら,音声・視覚的セグメンテーションのための新たな最先端技術が実現されている。
論文 参考訳(メタデータ) (2023-10-12T13:09:40Z) - QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition [47.103732403296654]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。
安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。
意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-09-29T20:48:44Z) - TriBERT: Full-body Human-centric Audio-visual Representation Learning
for Visual Sound Separation [35.93516937521393]
ViLBERTにインスパイアされたトランスフォーマーベースのアーキテクチャであるTriBERTを紹介する。
TriBERTは、視覚、ポーズ、オーディオの3つのモードにわたるコンテキスト的特徴学習を可能にする。
学習したTriBERT表現は汎用的であり、他の音声視覚タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2021-10-26T04:50:42Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。