論文の概要: Learning Trajectory-Aware Multimodal Large Language Models for Video Reasoning Segmentation
- arxiv url: http://arxiv.org/abs/2603.21488v1
- Date: Mon, 23 Mar 2026 02:25:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.442951
- Title: Learning Trajectory-Aware Multimodal Large Language Models for Video Reasoning Segmentation
- Title(参考訳): ビデオ推論セグメンテーションのための軌道対応マルチモーダル大言語モデルの学習
- Authors: Jingnan Luo, Mingqi Gao, Jun Liu, Bin-Bin Gao, Feng Zheng,
- Abstract要約: 我々はTrajSegを提案する。TrajSegはマルチモーダル大規模言語モデル上に構築されたシンプルで統一されたフレームワークである。
本研究では,MLLMが接頭辞(テキスト・トゥ・トラジェクティブ)と接頭辞(テキスト・トゥ・テキスト)の指示を受理する双方向テキスト・トラジェクティブアライメントを提案する。
このようにして、MLLMは、ビデオの対応性の向上と、より知覚的なオブジェクトの軌跡の恩恵を受けることができる。
- 参考スコア(独自算出の注目度): 55.743701532984126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prosperity of Multimodal Large Language Models (MLLMs) has stimulated the demand for video reasoning segmentation, which aims to segment video objects based on human instructions. Previous studies rely on unidirectional and implicit text-trajectory alignment, which struggles with trajectory perception when faced with severe video dynamics. In this work, we propose TrajSeg, a simple and unified framework built upon MLLMs. Concretely, we introduce bidirectional text-trajectory alignment, where MLLMs accept grounding-intended (text-to-trajectory) and captioning-intended (trajectory-to-text) instructions. This way, MLLMs can benefit from enhanced correspondence and better perceive object trajectories in videos. The mask generation from trajectories is achieved via a frame-level content integration (FCI) module and a unified mask decoder. The former adapts the MLLM-parsed trajectory-level token to frame-specific information. The latter unifies segmentation for all frames into a single structure, enabling the proposed framework to be simplified and end-to-end trainable. Extensive experiments on referring and reasoning video segmentation datasets demonstrate the effectiveness of TrajSeg, which outperforms all video reasoning segmentation methods on all metrics. The code will be publicly available at https://github.com/haodi19/TrajSeg.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の繁栄は、人間の指示に基づいて映像オブジェクトをセグメント化することを目的とした、ビデオ推論セグメンテーションの需要を刺激している。
従来の研究は、一方向的かつ暗黙的なテキスト軌道アライメントに依存していた。
本稿では,MLLM上に構築されたシンプルで統一的なフレームワークであるTrajSegを提案する。
具体的には、MLLMが接地指示(テキスト・トゥ・トラジェクティブ)とキャプション指示(テキスト・トゥ・テキスト)を受け入れる双方向テキスト・トラジェクティブアライメントを導入する。
このようにして、MLLMは、ビデオの対応性の向上と、より知覚的なオブジェクトの軌跡の恩恵を受けることができる。
トラジェクトリからのマスク生成は、フレームレベルコンテンツ統合(FCI)モジュールと統一マスクデコーダによって達成される。
前者はMLLMパースされた軌跡レベルトークンをフレーム固有情報に適用する。
後者はすべてのフレームのセグメンテーションを単一の構造に統一し、提案されたフレームワークを単純化し、エンドツーエンドのトレーニングを可能にする。
ビデオセグメンテーションデータセットの参照と推論に関する大規模な実験は、すべてのメトリクスにおけるすべてのビデオ推論セグメンテーション手法より優れている、TrajSegの有効性を示している。
コードはhttps://github.com/haodi19/TrajSeg.comで公開されている。
関連論文リスト
- VidVec: Unlocking Video MLLM Embeddings for Video-Text Retrieval [11.519642157641023]
本稿では,ビデオテキストの埋め込みと検索にMLLMを活用することに焦点を当てる。
まず,中間層(事前学習)MLLM層がすでにタスク関連情報を有意にエンコードしていることを示す。
我々は,中間層埋め込みと校正MLLMヘッドを組み合わせることで,トレーニングなしで強力なゼロショット検索性能が得られることを示した。
論文 参考訳(メタデータ) (2026-02-08T19:39:32Z) - Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs [88.68484904214142]
Patch-as-Decodable Token (PaDT)を導入し、テキストと多様な視覚出力を生成する。
PaDTの中心は、クエリイメージのビジュアルパッチ埋め込みから派生したVisual Reference Tokens (VRT)である。
MLLMモデルと比較しても,PaDTは最先端の性能を一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-10-02T12:23:57Z) - SimToken: A Simple Baseline for Referring Audio-Visual Segmentation [29.88252418748085]
Referring Audio-Visual (Ref-AVS) は、自然言語表現に基づいて、特定のオブジェクトをビデオに分割することを目的としている。
このタスクは、クロスモーダル推論ときめ細かいオブジェクトローカライゼーションにおいて重要な課題を提起する。
我々はSegment Anything Model(SAM)とMLLM(Multimodal large language model)を統合したSimTokenというフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T08:55:04Z) - Unleashing Hierarchical Reasoning: An LLM-Driven Framework for Training-Free Referring Video Object Segmentation [17.238084264485988]
Referring Video Object (RVOS) は、言語記述に基づいて、ビデオ全体を通して関心のあるオブジェクトをセグメントすることを目的としている。
bftextPARSE-VOSは、Large Language Models (LLMs)を利用したトレーニング不要のフレームワークである。
bftextPARSE-VOSは、Ref-YouTube-VOS、Ref-DAVIS17、MeViSの3つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-09-06T15:46:23Z) - X-SAM: From Segment Anything to Any Segmentation [63.79182974315084]
大きな言語モデル(LLM)は、広い知識表現において強力な能力を示すが、本質的にはピクセルレベルの知覚的理解において不十分である。
テキスト化からテキスト化まで,セグメンテーションパラダイムを拡張したマルチモーダル大規模言語モデルフレームワークであるX-SAMを提案する。
インタラクティブな視覚的プロンプトで全てのインスタンスオブジェクトをセグメンテーションし、視覚的グラウンドでピクセルワイドな解釈能力を持つMLLMに権限を与える、Visual GrounDed (VGD)セグメンテーションと呼ばれる新しいセグメンテーションタスクを提案する。
論文 参考訳(メタデータ) (2025-08-06T17:19:10Z) - CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos [59.391265901911005]
本稿では,MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用して,時間-意味的推論による複雑な問題に対処する新しいフレームワークであるCoT-RVSを提案する。
CoT-RVSは、言語クエリ(セマンティック)にマッチする可能性のある特定のフレーム内の可視オブジェクトを分析し、すべてのフレーム(一時)の中で、懸命に観察できる各オブジェクトに対して対応するオブジェクトを選択する。
当社のフレームワークのトレーニングフリー機能は,テスト時にCoTを使用して,よりよいターゲットが出現し始めると関心の対象を更新するオンラインビデオストリーム処理の拡張も可能にしています。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - GLUS: Global-Local Reasoning Unified into A Single Large Language Model for Video Segmentation [22.769692511220327]
本稿では、ビデオオブジェクトセグメンテーション(RefVOS)の参照にMLLM(Multi-modal large language model)を利用する新しいフレームワークを提案する。
本フレームワークは,グローバルかつ局所的な一貫性を単一のビデオセグメンテーションMLLMに統合可能であることを示す。
MLLMの限られたコンテキストウィンドウ内での情報効率を向上させるために,ハード偽陽性オブジェクトを識別するためのオブジェクトコントラスト学習を導入する。
論文 参考訳(メタデータ) (2025-04-10T17:59:55Z) - InstructSeg: Unifying Instructed Visual Segmentation with Multi-modal Large Language Models [37.43195217391341]
本稿では,画像レベルと映像レベルのセグメンテーションと推論セグメンテーションの融合を,IVS(Instructed Visual)として定義する。
具体的には、参照フレームから時間的およびオブジェクト情報を抽出し、包括的な映像理解を容易にするために、オブジェクト認識ビデオ知覚器を用いる。
マルチタスクとエンドツーエンドのトレーニングを活用することで、InstructSegは、さまざまな画像およびビデオセグメンテーションタスクにまたがる優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-12-18T16:20:40Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。