論文の概要: SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models
- arxiv url: http://arxiv.org/abs/2505.18812v1
- Date: Sat, 24 May 2025 18:13:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.672365
- Title: SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models
- Title(参考訳): SAMA:大規模言語モデルを用いたマルチスレッド参照ビデオチャットを目指して
- Authors: Ye Sun, Hao Zhang, Henghui Ding, Tiehua Zhang, Xingjun Ma, Yu-Gang Jiang,
- Abstract要約: ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。
私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。
まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。
第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
- 参考スコア(独自算出の注目度): 80.3895950009792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving fine-grained spatio-temporal understanding in videos remains a major challenge for current Video Large Multimodal Models (Video LMMs). Addressing this challenge requires mastering two core capabilities: video referring understanding, which captures the semantics of video regions, and video grounding, which segments object regions based on natural language descriptions. However, most existing approaches tackle these tasks in isolation, limiting progress toward unified, referentially grounded video interaction. We identify a key bottleneck in the lack of high-quality, unified video instruction data and a comprehensive benchmark for evaluating referentially grounded video chat. To address these challenges, we contribute in three core aspects: dataset, model, and benchmark. First, we introduce SAMA-239K, a large-scale dataset comprising 15K videos specifically curated to enable joint learning of video referring understanding, grounding, and multi-turn video chat. Second, we propose the SAMA model, which incorporates a versatile spatio-temporal context aggregator and a Segment Anything Model to jointly enhance fine-grained video comprehension and precise grounding capabilities. Finally, we establish SAMA-Bench, a meticulously designed benchmark consisting of 5,067 questions from 522 videos, to comprehensively evaluate the integrated capabilities of Video LMMs in multi-turn, spatio-temporal referring understanding and grounded dialogue. Extensive experiments and benchmarking results show that SAMA not only achieves strong performance on SAMA-Bench but also sets a new state-of-the-art on general grounding benchmarks, while maintaining highly competitive performance on standard visual understanding benchmarks.
- Abstract(参考訳): 現在のビデオ大マルチモーダルモデル(Video Large Multimodal Models, ビデオLMM)では, ビデオの微細な時空間的理解が依然として大きな課題である。
この課題に対処するには、ビデオ領域のセマンティクスをキャプチャするビデオ参照理解と、自然言語の記述に基づいてオブジェクト領域をセグメント化するビデオグラウンドという、2つのコア機能を習得する必要がある。
しかし、既存のほとんどのアプローチは、これらのタスクを分離して取り組まなければならない。
高品質で統一されたビデオ・インストラクション・データの欠如に重要なボトルネックを見出した。
これらの課題に対処するため、データセット、モデル、ベンチマークの3つの中核的な側面にコントリビュートしています。
まず,ビデオ参照理解,接地,マルチターンビデオチャットの共用学習を可能にするために,特に15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。
第2に,多機能な時空間アグリゲータとセグメンション・アプライシング・モデルを組み合わせたSAMAモデルを提案する。
最後に, 522 ビデオからの5,067 問からなる細心の注意深いベンチマーク SAMA-Bench を構築し, マルチターン, 時空間参照理解, 接地対話におけるビデオ LMM の統合能力を総合的に評価した。
大規模な実験とベンチマークの結果から,SAMAはSAMA-Bench上での強い性能を達成するだけでなく,標準的な視覚理解ベンチマーク上での高い競争性能を維持しつつ,新たな最先端のベンチマークを設定できることが示されている。
関連論文リスト
- H2VU-Benchmark: A Comprehensive Benchmark for Hierarchical Holistic Video Understanding [25.111988967973147]
既存のビデオ理解評価ベンチマークでは、カバレッジ、タスクの多様性、シーン適応性に大きな制限がある。
本稿では,一般的なビデオとオンラインストリーミングの両方の理解度を評価するために,階層的・全体論的ビデオ理解ベンチマークを提案する。
このベンチマークは、拡張ビデオの長さ、包括的なアセスメントタスク、エンリッチ化ビデオデータという3つの重要な特徴に寄与する。
論文 参考訳(メタデータ) (2025-03-31T12:32:51Z) - E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding [57.630136434038384]
E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark)は、イベントレベルのオープンな理解のための大規模ベンチマークである。
ベンチマークでは,8つの画像-LLMと12個のビデオ-LLMを広範囲に評価し,その結果から,粗い(ビデオレベル)理解のための最先端モデルが,きめ細かなタスクの解決に苦慮していることが判明した。
私たちのシンプルだが効果的なソリューションは、複数のシナリオで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-09-26T17:53:04Z) - LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。
私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。
我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2024-07-22T16:00:55Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。