論文の概要: R-AVST: Empowering Video-LLMs with Fine-Grained Spatio-Temporal Reasoning in Complex Audio-Visual Scenarios
- arxiv url: http://arxiv.org/abs/2511.16901v2
- Date: Thu, 27 Nov 2025 01:14:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 13:46:31.756983
- Title: R-AVST: Empowering Video-LLMs with Fine-Grained Spatio-Temporal Reasoning in Complex Audio-Visual Scenarios
- Title(参考訳): R-AVST:複雑なオーディオ・ビジュアルシナリオにおける微粒化時空間推論によるビデオLLMの強化
- Authors: Lu Zhu, Tiantian Geng, Yangye Chen, Teng Wang, Ping Lu, Feng Zheng,
- Abstract要約: 微粒なアノテーションを用いた音声・視覚・時間的推論のためのデータセットであるR-AVSTを提案する。
我々は8K以上の高品質で均等に分散された質問応答ペアを生成し、性能をベンチマークする。
AVST-Zeroは、中間的監視を回避する強化学習に基づくモデルである。
- 参考スコア(独自算出の注目度): 39.445591627791046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, rapid advancements have been made in multimodal large language models (MLLMs), especially in video understanding tasks. However, current research focuses on simple video scenarios, failing to reflect the complex and diverse nature of real-world audio-visual events in videos. To bridge this gap, we firstly introduce R-AVST, a dataset for audio-visual reasoning featuring fine-grained spatio-temporal annotations. In constructing this, we design a pipeline consisting of LLM-based key object extraction, automatic spatial annotation and manual quality inspection, resulting in over 5K untrimmed videos with 27K objects across 100 types of audio-visual events. Building on this dataset, we define three core tasks for spatio-temporal reasoning in audio-visual scenes and generate more than 8K high-quality, evenly distributed question-answer pairs to effectively benchmark model performance. To further enhance reasoning, we propose AVST-Zero, a reinforcement learning-based model that avoids intermediate supervision, directly optimizing behavior via carefully designed multi-dimensional rewards. Extensive experiments validate the effectiveness of our R-AVST in advancing audio-visual spatio-temporal reasoning, upon which AVST-Zero demonstrates competitive performance compared to existing models. To the best of our knowledge, R-AVST is the first dataset designed for real-world audio-visual spatio-temporal reasoning, and AVST-Zero offers a novel perspective for tackling future challenges in this domain.
- Abstract(参考訳): 近年,マルチモーダル大言語モデル(MLLM),特にビデオ理解タスクにおいて急速に進歩している。
しかし、現在の研究では、ビデオにおける実世界のオーディオ視覚イベントの複雑で多様な性質を反映していない、単純なビデオシナリオに焦点を当てている。
このギャップを埋めるために、まず、微細な時空間アノテーションを特徴とする音声・視覚的推論のためのデータセットであるR-AVSTを導入する。
これを構築するために,LLMに基づくキーオブジェクト抽出,自動空間アノテーション,手動品質検査からなるパイプラインを設計した。
このデータセットに基づいて、音声・視覚シーンにおける時空間推論のための3つのコアタスクを定義し、モデル性能を効果的にベンチマークするために8K以上の高品質な問合せペアを生成する。
AVST-Zeroは、中間的監督を回避し、慎重に設計された多次元報酬を通して振舞いを直接最適化する強化学習に基づくモデルである。
AVST-Zeroが既存モデルと競合する性能を示す音声・視覚空間の時間的推論におけるR-AVSTの有効性を検証する。
我々の知る限り、R-AVSTは、実世界の音声と視覚の時空間推論のために設計された最初のデータセットであり、AVST-Zeroはこの領域における将来の課題に取り組むための新しい視点を提供する。
関連論文リスト
- Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence [70.2803680525165]
我々は、明示的な証拠をビデオ推論に統合する非エージェントフレームワークであるOpen-o3 Videoを紹介した。
このモデルは、キーオブジェクトとバウンディングボックスをその答えとともに強調し、推論を具体的な視覚的な観察で基礎付けることができる。
V-STARベンチマークでは、Open-o3 Videoは最先端のパフォーマンスを達成し、mAMを14.4%、mLタイムスタンプを24.2%向上させた。
論文 参考訳(メタデータ) (2025-10-23T14:05:56Z) - Spatial and Semantic Embedding Integration for Stereo Sound Event Localization and Detection in Regular Videos [3.2472293599354596]
本報告では,DCASE2025 Task 3 Challenge: Stereo Sound Event Localization and Detection in regular Video Contentの音声のみおよび音声視覚トラックに提案するシステムについて述べる。
SELDは、時間的事象分類と空間的局所化を組み合わせた複雑なタスクであり、空間的、時間的、意味的な次元にわたって推論を必要とする。
そこで本研究では,音声用CLAPと視覚入力用OWL-ViTという,事前学習型コントラスト言語対応モデルを統合することで,セマンティック情報を用いた標準的なSELDアーキテクチャを強化した。
論文 参考訳(メタデータ) (2025-07-07T10:08:57Z) - Bridging Audio and Vision: Zero-Shot Audiovisual Segmentation by Connecting Pretrained Models [13.63552417613795]
複数の事前学習モデルを活用することでタスク固有のトレーニングを不要にするゼロショットAVSフレームワークを提案する。
提案手法は,音声,視覚,テキスト表現を統合し,AVS固有のアノテーションを使わずに正確な音源分割を可能にする。
論文 参考訳(メタデータ) (2025-06-06T21:06:35Z) - CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment [76.32508013503653]
CAV-MAE Sync は,自己教師型音声視覚学習のためのオリジナルの CAV-MAE フレームワークの簡易かつ効果的な拡張として提案する。
音声をグローバルな表現ではなく,映像フレームに整合した時間的シーケンスとして扱うことで,モダリティ間のミスマッチに対処する。
パッチトークンのセマンティック負荷を低減するための学習可能なレジスタトークンを導入することにより,空間的ローカライゼーションを改善する。
論文 参考訳(メタデータ) (2025-05-02T12:59:58Z) - OpenAVS: Training-Free Open-Vocabulary Audio Visual Segmentation with Foundational Models [28.56745509698125]
オープンボキャブラリ・オーディオ・ビジュアル(AVS)のプロキシとしてテキストを用いて音声と視覚のモダリティを調整するための訓練不要な言語ベースのアプローチであるOpenAVSを提案する。
OpenAVSは,1)音声からテキストへのプロンプト生成,2)LLM誘導のプロンプト翻訳,3)テキストから視覚への音声合成オブジェクトセグメンテーションを通じてマスクを推論する。
既存の教師なし、ゼロショット、少数ショットのAVSメソッドをかなり上回り、mIoUとFスコアでそれぞれ9.4%と10.9%の絶対的なパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2025-04-30T01:52:10Z) - Leveraging Reverberation and Visual Depth Cues for Sound Event Localization and Detection with Distance Estimation [3.2472293599354596]
本報告では,DCASE2024タスク3の課題として,音源距離推定による音声・音声イベントの定位と検出を行うシステムについて述べる。
本モデルでは,ResNet50で抽出したビデオとオーディオの埋め込みを,SELDで事前学習したオーディオエンコーダで処理するAVコンバータをベースとした。
このモデルは、STARSS23データセットの開発セットのオーディオ視覚ベースラインを広いマージンで上回り、DOAEを半分にし、F1を3倍以上改善した。
論文 参考訳(メタデータ) (2024-10-29T17:28:43Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。