Fugu-MT 論文翻訳(概要): Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

論文の概要: Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

arxiv url: http://arxiv.org/abs/2501.04001v1
Date: Tue, 07 Jan 2025 18:58:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-08 16:58:03.129642
Title: Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos
Title（参考訳）: Sa2VA:SAM2とLLaVAを結婚して画像とビデオの理解を深める
Authors: Haobo Yuan, Xiangtai Li, Tao Zhang, Zilong Huang, Shilin Xu, Shunping Ji, Yunhai Tong, Lu Qi, Jiashi Feng, Ming-Hsuan Yang,
Abstract要約: Sa2VAは、画像とビデオの両方の基盤的理解のための統一モデルである。セグメンテーションや会話など、幅広い画像やビデオのタスクをサポートする。本稿では,複数のタスク,特にビデオオブジェクトのセグメンテーションにおいて,Sa2VAが最先端を実現することを示す。
参考スコア（独自算出の注目度）: 110.3379755761583
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work presents Sa2VA, the first unified model for dense grounded understanding of both images and videos. Unlike existing multi-modal large language models, which are often limited to specific modalities and tasks, Sa2VA supports a wide range of image and video tasks, including referring segmentation and conversation, with minimal one-shot instruction tuning. Sa2VA combines SAM-2, a foundation video segmentation model, with LLaVA, an advanced vision-language model, and unifies text, image, and video into a shared LLM token space. Using the LLM, Sa2VA generates instruction tokens that guide SAM-2 in producing precise masks, enabling a grounded, multi-modal understanding of both static and dynamic visual content. Additionally, we introduce Ref-SAV, an auto-labeled dataset containing over 72k object expressions in complex video scenes, designed to boost model performance. We also manually validate 2k video objects in the Ref-SAV datasets to benchmark referring video object segmentation in complex environments. Experiments show that Sa2VA achieves state-of-the-art across multiple tasks, particularly in referring video object segmentation, highlighting its potential for complex real-world applications.
Abstract（参考訳）: この研究は、画像とビデオの両方の密接な理解のための最初の統一モデルであるSa2VAを提示する。特定のモダリティやタスクに制限される既存のマルチモーダルな大規模言語モデルとは異なり、Sa2VAはセグメンテーションや会話の参照を含む幅広い画像およびビデオタスクをサポートし、最小限のワンショットのインストラクションチューニングを行う。 Sa2VAは、基礎的なビデオセグメンテーションモデルSAM-2と高度なビジョン言語モデルLLaVAを組み合わせて、テキスト、画像、ビデオを共有LLMトークン空間に統合する。 LLMを用いて、Sa2VAはSAM-2の正確なマスク生成を誘導する命令トークンを生成し、静的および動的ビジュアルコンテンツの両方の基底的でマルチモーダルな理解を可能にする。さらに,複雑な映像シーンにおける72k以上のオブジェクト表現を含む自動ラベル付きデータセットRef-SAVを導入する。また、Ref-SAVデータセット内の2kの動画オブジェクトを手動で検証し、複雑な環境におけるビデオオブジェクトのセグメンテーションを参照してベンチマークする。実験によると、Sa2VAは複数のタスク、特にビデオオブジェクトのセグメンテーションを参照することで、複雑な現実世界のアプリケーションに対するその可能性を強調している。

関連論文リスト

SAM2-LOVE: Segment Anything Model 2 in Language-aided Audio-Visual Scenes [30.870903750545004]
本稿では,テキスト,音声,視覚表現を学習可能なトークンに統合する新しいフレームワークSAM2-LOVEを紹介する。技術的には、SAM2のマルチモーダル理解を改善することを目的としたマルチモーダル融合モジュールを含む。 SAM2-LOVEは、Ref-AVSベンチマークにおいて、$calmathJ&F$において、SOTAよりも8.5%高い性能を示した。
論文参考訳（メタデータ） (2025-06-02T11:36:25Z)
DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency [91.30252180093333]
In-context segmentation に SAM と SAM2 を適応させるプロンプトチューニングに基づく Dual Consistency SAM (DCSAM) 法を提案する。我々の重要な洞察は、高品質な視覚的プロンプトを提供することにより、SAMのセグメンテーションにおけるプロンプトエンコーダの機能を強化することである。提案したDC-SAMは主に画像用に設計されているが、SAM2のサポートによりビデオ領域にシームレスに拡張できる。
論文参考訳（メタデータ） (2025-04-16T13:41:59Z)
4th PVUW MeViS 3rd Place Report: Sa2VA [105.88675577642204]
より強力なMLLM上でのテスト時間推定法を簡易に修正することで,MeVISのより強力な結果が得られることを示す。特に,画像とビデオの密接な理解のための統一モデルである,最近のSa2VAを採用する。
論文参考訳（メタデータ） (2025-04-01T07:06:47Z)
MPG-SAM 2: Adapting SAM 2 with Mask Priors and Global Context for Referring Video Object Segmentation [21.43947114468122]
ビデオオブジェクトセグメンテーション(RVOS)の参照は、ビデオ内のオブジェクトをテキスト記述に従ってセグメントすることを目的としている。 Segment Anything Model 2 (SAM2)は、様々なビデオセグメンテーションタスクにおいて大きな効果を示している。本稿では,これらの課題に対処する新しいRVOSフレームワークMPG-SAM 2を提案する。
論文参考訳（メタデータ） (2025-01-23T13:53:33Z)
Dynamic-VLM: Simple Dynamic Visual Token Compression for VideoLLM [28.64108439552772]
プロプライエタリなモデルから生成された大規模合成データセットを紹介する。また、計算効率と性能のバランスをとる動的ビジュアルトークン圧縮アーキテクチャについても検討する。提案手法は,様々な映像タスクにまたがって最先端の成果を達成し,印象的な一般化を示す。
論文参考訳（メタデータ） (2024-12-12T18:20:41Z)
TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models [52.590072198551944]
近年の多モーダル言語モデル(LLM)の進歩は,多モーダルな内容を理解する上で大きな成功を収めている。ビデオ理解タスクでは、高品質でキュレートされたビデオテキストペアリングデータの不足により、トレーニングベースのビデオLLMの構築が困難である。本研究では,トレーニングフリーのビデオ LLM 構築における既存の圧縮戦略の限界について検討する。
論文参考訳（メタデータ） (2024-11-17T13:08:29Z)
VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.765796160750504]
VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文参考訳（メタデータ） (2024-11-07T17:59:27Z)
Semantic Alignment for Multimodal Large Language Models [72.10272479476161]
多モード大言語モデル(SAM)のセマンティックアライメントについて紹介する。画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
論文参考訳（メタデータ） (2024-08-23T06:48:46Z)
Video Object Segmentation via SAM 2: The 4th Solution for LSVOS Challenge VOS Track [28.52754012142431]
Segment Anything Model 2 (SAM2) は、画像やビデオにおける迅速な視覚的セグメンテーションを解決するための基礎モデルである。 SAM 2は、ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集している。訓練セットを微調整することなく、SAM 2はテストセットで75.79 J&Fを獲得し、第6回LSVOSチャレンジVOSトラックでは4位となった。
論文参考訳（メタデータ） (2024-08-19T16:13:14Z)
Video-LLaVA: Learning United Visual Representation by Alignment Before Projection [27.04277811443469]
Video-LLaVAは、画像とビデオの混合データセットから学習し、相互に強化する。 Video-LLaVAは5つの画像問合せデータセットと4つの画像ベンチマークツールキットにまたがる9つの画像ベンチマークで優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-11-16T10:59:44Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。大規模なVidL事前学習による各種ベースライン法の評価を行った。我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文参考訳（メタデータ） (2021-06-08T18:34:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。