論文の概要: Online Reasoning Video Segmentation with Just-in-Time Digital Twins
- arxiv url: http://arxiv.org/abs/2503.21056v1
- Date: Thu, 27 Mar 2025 00:06:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:51:28.302832
- Title: Online Reasoning Video Segmentation with Just-in-Time Digital Twins
- Title(参考訳): ジャストインタイムデジタル双対によるオンライン推論ビデオセグメンテーション
- Authors: Yiqing Shen, Bohan Liu, Chenjia Li, Lalithkumar Seenivasan, Mathias Unberath,
- Abstract要約: 推論セグメンテーション(RS)は、暗黙のテキストクエリに基づいて関心のあるオブジェクトを識別し、セグメンテーションすることを目的としている。
現在のRSアプローチは、マルチモーダルな大言語モデルの視覚知覚能力に大きく依存している。
LLMの微調整を伴わないオンラインビデオRSの認識と推論を阻害するエージェントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.568569213914378
- License:
- Abstract: Reasoning segmentation (RS) aims to identify and segment objects of interest based on implicit text queries. As such, RS is a catalyst for embodied AI agents, enabling them to interpret high-level commands without requiring explicit step-by-step guidance. However, current RS approaches rely heavily on the visual perception capabilities of multimodal large language models (LLMs), leading to several major limitations. First, they struggle with queries that require multiple steps of reasoning or those that involve complex spatial/temporal relationships. Second, they necessitate LLM fine-tuning, which may require frequent updates to maintain compatibility with contemporary LLMs and may increase risks of catastrophic forgetting during fine-tuning. Finally, being primarily designed for static images or offline video processing, they scale poorly to online video data. To address these limitations, we propose an agent framework that disentangles perception and reasoning for online video RS without LLM fine-tuning. Our innovation is the introduction of a just-in-time digital twin concept, where -- given an implicit query -- a LLM plans the construction of a low-level scene representation from high-level video using specialist vision models. We refer to this approach to creating a digital twin as "just-in-time" because the LLM planner will anticipate the need for specific information and only request this limited subset instead of always evaluating every specialist model. The LLM then performs reasoning on this digital twin representation to identify target objects. To evaluate our approach, we introduce a new comprehensive video reasoning segmentation benchmark comprising 200 videos with 895 implicit text queries. The benchmark spans three reasoning categories (semantic, spatial, and temporal) with three different reasoning chain complexity.
- Abstract(参考訳): 推論セグメンテーション(RS)は、暗黙のテキストクエリに基づいて関心のあるオブジェクトを識別し、セグメンテーションすることを目的としている。
そのため、RSはAIエージェントを具体化するための触媒であり、明示的なステップバイステップガイダンスを必要とせず、ハイレベルなコマンドを解釈することができる。
しかし、現在のRSアプローチはマルチモーダル大言語モデル(LLM)の視覚的知覚能力に大きく依存しており、いくつかの大きな制限が生じる。
まず、複数の推論ステップを必要とするクエリや、複雑な空間的/時間的関係を必要とするクエリに苦労する。
第二に、LLMの微調整が必要であり、現代のLCMとの互換性を維持するために頻繁な更新が必要であり、微調整中に破滅的な忘れ込みのリスクを増大させる可能性がある。
最後に、主に静的画像やオフラインビデオ処理用に設計されているため、オンラインビデオデータにはスケールが不十分である。
これらの制約に対処するため,LLMの微調整を伴わずに,オンラインビデオRSの認識と推論を阻害するエージェントフレームワークを提案する。
私たちのイノベーションは、ジャストインタイムのデジタルツインの概念の導入です。暗黙のクエリを前提として、LLMでは、スペシャリストビジョンモデルを使用して、ハイレベルなビデオから低レベルなシーン表現を構築する計画です。
デジタルツインを「ジャスト・イン・タイム(just-in-time)」とするのは、LSMプランナーが特定の情報の必要性を予測し、常に専門モデルを評価するのではなく、この限定サブセットを要求できるためである。
LLMは、ターゲットオブジェクトを特定するために、このデジタルツイン表現を推論する。
提案手法を評価するため,200本のビデオと895件の暗黙的テキストクエリからなる包括的ビデオ推論セグメンテーションベンチマークを導入する。
ベンチマークは3つの推論カテゴリ(意味、空間、時間)にまたがっており、3つの異なる推論チェーンの複雑さがある。
関連論文リスト
- Do Language Models Understand Time? [2.290956583394892]
大規模言語モデル(LLM)は、アクション認識、異常検出、要約を含む、ビデオベースのコンピュータビジョンアプリケーションに革命をもたらした。
本研究は,ビデオ処理におけるLLMの役割を,時間的推論能力に着目して批判的に考察する。
LLMの時間的理解を制限するため、バイアス、時間的アノテーションの欠如、ドメイン固有の制限など、既存のビデオデータセットによる課題を分析します。
論文 参考訳(メタデータ) (2024-12-18T13:38:06Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level [63.18855743293851]
Motion-Grounded Video Reasoningは、入力された質問に応じて視覚的回答(ビデオセグメンテーションマスク)を必要とする新しい動作理解タスクである。
このタスクは、質問による暗黙の推論を可能にすることで、明示的なアクション/モーショングラウンドの既存の基盤作業を、より一般的なフォーマットに拡張する。
我々はMotion-Grounded Video Reasoning Assistant(MORA)という新しいベースラインモデルを導入する。
論文 参考訳(メタデータ) (2024-11-15T03:45:09Z) - VideoINSTA: Zero-shot Long Video Understanding via Informative Spatial-Temporal Reasoning with LLMs [27.473258727617477]
長いビデオ理解は、拡張タイムパンに対する推論の複雑さのために、ユニークな課題を提示する。
Informative Space-TemporAl Reasoning for long-form Video Understandingを提案する。
提案モデルは,3つの長大ビデオ質問応答ベンチマークの最先端性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-09-30T15:04:14Z) - Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。
映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。
これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文 参考訳(メタデータ) (2024-06-16T12:58:31Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Look, Remember and Reason: Grounded reasoning in videos with language
models [5.3445140425713245]
マルチテンポラル言語モデル(LM)は、最近ビデオ上の高レベル推論タスクにおいて有望な性能を示した。
オブジェクト検出,再識別,追跡など,低レベルなサロゲートタスクに対するLMエンドツーエンドのトレーニングを提案し,低レベルな視覚能力を備えたモデルを実現する。
我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-06-30T16:31:14Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。