論文の概要: GLUS: Global-Local Reasoning Unified into A Single Large Language Model for Video Segmentation
- arxiv url: http://arxiv.org/abs/2504.07962v1
- Date: Thu, 10 Apr 2025 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:20:33.470684
- Title: GLUS: Global-Local Reasoning Unified into A Single Large Language Model for Video Segmentation
- Title(参考訳): GLUS:グローバルローカル推論をビデオセグメンテーションのための単一大言語モデルに統合
- Authors: Lang Lin, Xueyang Yu, Ziqi Pang, Yu-Xiong Wang,
- Abstract要約: 本稿では、ビデオオブジェクトセグメンテーション(RefVOS)の参照にMLLM(Multi-modal large language model)を利用する新しいフレームワークを提案する。
本フレームワークは,グローバルかつ局所的な一貫性を単一のビデオセグメンテーションMLLMに統合可能であることを示す。
MLLMの限られたコンテキストウィンドウ内での情報効率を向上させるために,ハード偽陽性オブジェクトを識別するためのオブジェクトコントラスト学習を導入する。
- 参考スコア(独自算出の注目度): 22.769692511220327
- License:
- Abstract: This paper proposes a novel framework utilizing multi-modal large language models (MLLMs) for referring video object segmentation (RefVOS). Previous MLLM-based methods commonly struggle with the dilemma between "Ref" and "VOS": they either specialize in understanding a few key frames (global reasoning) or tracking objects on continuous frames (local reasoning), and rely on external VOS or frame selectors to mitigate the other end of the challenge. However, our framework GLUS shows that global and local consistency can be unified into a single video segmentation MLLM: a set of sparse "context frames" provides global information, while a stream of continuous "query frames" conducts local object tracking. This is further supported by jointly training the MLLM with a pre-trained VOS memory bank to simultaneously digest short-range and long-range temporal information. To improve the information efficiency within the limited context window of MLLMs, we introduce object contrastive learning to distinguish hard false-positive objects and a self-refined framework to identify crucial frames and perform propagation. By collectively integrating these insights, our GLUS delivers a simple yet effective baseline, achieving new state-of-the-art for MLLMs on the MeViS and Ref-Youtube-VOS benchmark. Our project page is at https://glus-video.github.io/.
- Abstract(参考訳): 本稿では,ビデオオブジェクトセグメンテーション(RefVOS)の参照にMLLM(Multi-modal large language model)を利用する新しいフレームワークを提案する。
従来のMLLMベースの手法では、"Ref" と "VOS" のジレンマに苦戦しており、いくつかのキーフレーム(グローバル推論)の理解や、連続的なフレーム(ローカル推論)でのオブジェクトの追跡を専門とし、外部のVOSやフレームセレクタに依存して課題の他の端を緩和する。
しかし,我々のフレームワーク GLUS は,グローバルかつ局所的な一貫性を単一のビデオセグメンテーション MLLM に統合できることを示し,疎い"コンテキストフレーム" の集合がグローバル情報を提供する一方で,連続的な"クエリフレーム" のストリームがローカルオブジェクト追跡を行う。
さらに、MLLMをトレーニング済みのVOSメモリバンクと共同でトレーニングすることで、短距離および長距離の時間情報を同時に消化する。
MLLMの限られたコンテキストウィンドウ内での情報効率を向上させるために,ハード偽陽性オブジェクトを識別するためのオブジェクトコントラスト学習と,重要なフレームを識別し,伝播を行う自己修正フレームワークを導入する。
これらの知見を総合的に統合することにより、私たちのGLUSは、MeViSとRef-Youtube-VOSベンチマーク上でMLLMの最先端を達成し、シンプルで効果的なベースラインを提供します。
私たちのプロジェクトページはhttps://glus-video.github.io/です。
関連論文リスト
- InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - InstructSeg: Unifying Instructed Visual Segmentation with Multi-modal Large Language Models [37.43195217391341]
本稿では,画像レベルと映像レベルのセグメンテーションと推論セグメンテーションの融合を,IVS(Instructed Visual)として定義する。
具体的には、参照フレームから時間的およびオブジェクト情報を抽出し、包括的な映像理解を容易にするために、オブジェクト認識ビデオ知覚器を用いる。
マルチタスクとエンドツーエンドのトレーニングを活用することで、InstructSegは、さまざまな画像およびビデオセグメンテーションタスクにまたがる優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-12-18T16:20:40Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos [41.34787907803329]
VideoLISAは、ビデオ内の言語命令による推論セグメンテーションの問題に対処するために設計された、ビデオベースのマルチモーダルな大規模言語モデルである。
VideoLISAは、言語命令に基づいてビデオ内に時間的に一貫したセグメンテーションマスクを生成する。
論文 参考訳(メタデータ) (2024-09-29T07:47:15Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Understanding Long Videos with Multimodal Language Models [44.78900245769057]
LLM(Large Language Models)は、長いビデオ理解ベンチマークにおいて優れたパフォーマンスを達成するために、最近のアプローチを可能にしている。
本研究では,LLMの広範な世界知識と強力な推論能力が,この強みにどのように影響するかを考察する。
得られたマルチモーダルビデオ理解フレームワークは、複数のビデオ理解ベンチマークで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-03-25T17:59:09Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - LAVENDER: Unifying Video-Language Understanding as Masked Language
Modeling [102.42424022921243]
Masked Language Modeling (MLM) は、すべての事前学習および下流タスクの共通インターフェースとして使用される。
実験により、この統合フレームワークは14のVidLベンチマークで競合性能を達成することが示された。
論文 参考訳(メタデータ) (2022-06-14T20:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。