論文の概要: Online Reasoning Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2604.11411v1
- Date: Mon, 13 Apr 2026 12:55:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.54382
- Title: Online Reasoning Video Object Segmentation
- Title(参考訳): オンライン推論ビデオオブジェクトセグメンテーション
- Authors: Jinyuan Liu, Yang Wang, Zeyu Zhao, Weixin Li, Song Wang, Ruize Han,
- Abstract要約: ビデオオブジェクトセグメンテーションの推論は、自然言語クエリからビデオ中のピクセルレベルのマスクを予測する。
オンライン推論ビデオオブジェクト(ORVOS)について検討し、過去のフレームと現在のフレームのみを用いて、モデルを漸進的に解釈する。
ORVOSBは、フレームレベルの因果アノテーションと参照シフトラベルを備えたベンチマークで、210の動画、12,907の注釈付きフレーム、および512の推論カテゴリからなる。
- 参考スコア(独自算出の注目度): 26.75863941739301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning video object segmentation predicts pixel-level masks in videos from natural-language queries that may involve implicit and temporally grounded references. However, existing methods are developed and evaluated in an offline regime, where the entire video is available at inference time and future frames can be exploited for retrospective disambiguation, deviating from real-world deployments that require strictly causal, frame-by-frame decisions. We study Online Reasoning Video Object Segmentation (ORVOS), where models must incrementally interpret queries using only past and current frames without revisiting previous predictions, while handling referent shifts as events unfold. To support evaluation, we introduce ORVOSB, a benchmark with frame-level causal annotations and referent-shift labels, comprising 210 videos, 12,907 annotated frames, and 512 queries across five reasoning categories. We further propose a baseline with continually-updated segmentation prompts and a structured temporal token reservoir for long-horizon reasoning under bounded computation. Experiments show that existing methods struggle under strict causality and referent shifts, while our baseline establishes a strong foundation for future research.
- Abstract(参考訳): ビデオオブジェクトのセグメンテーション(Reasoning video object segmentation)は、暗黙的および時間的根拠を持つ可能性のある自然言語クエリからビデオ中のピクセルレベルのマスクを予測する。
しかし、既存の手法はオフラインで開発・評価され、ビデオ全体が推論時に利用可能であり、将来のフレームは、厳密に因果的、フレーム単位の判断を必要とする現実世界のデプロイメントから逸脱して、振り返りの曖昧さのために利用することができる。
オンライン推論ビデオオブジェクトセグメンテーション(ORVOS)について検討し、過去の予測を再考することなく、参照シフトをイベントの展開に合わせて処理しながら、過去のフレームと現在のフレームのみを用いてクエリを漸進的に解釈する必要がある。
評価を支援するため,フレームレベルの因果アノテーションと参照シフトラベルを備えたベンチマークであるRVOSBを導入し,5つの推論カテゴリにまたがる210の動画,12,907の注釈付きフレーム,512のクエリについて検討した。
さらに,連続的に更新されたセグメンテーションプロンプトを持つベースラインと,有界な計算条件下での長距離推論のための構造化された時間トークン貯水池を提案する。
実験の結果,既存の手法は厳格な因果関係や参照的シフトの下では困難であり,我々の基礎は今後の研究の強力な基盤を築き上げている。
関連論文リスト
- VIRST: Video-Instructed Reasoning Assistant for SpatioTemporal Segmentation [6.447274127678917]
Video Video Object (RVOS) は、自然言語による記述に基づいて、対象物をビデオに分割することを目的としている。
VIRST(Video-Instructed Reasoning Assistant for Spatio-Temporal)は,グローバルなビデオ推論と画素レベルのマスク予測を単一のモデルで統合するエンドツーエンドフレームワークである。
論文 参考訳(メタデータ) (2026-03-28T00:34:15Z) - Temporal Prompting Matters: Rethinking Referring Video Object Segmentation [64.82333675385802]
Referring Video Object (RVOS) は、クエリ文によって参照されるオブジェクトをビデオにセグメントすることを目的としている。
既存のほとんどの方法は、密集したマスクアノテーションによるエンドツーエンドのトレーニングを必要とする。
本稿では,参照要因とビデオ要因に対処するテンポラル・プロンプト生成・選択(テネ)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-08T17:59:57Z) - Temporally-Constrained Video Reasoning Segmentation and Automated Benchmark Construction [8.214041057237491]
本稿では,対象対象物が文脈的関連性を持つ場合に暗黙的に推論することを必要とする新しいタスクの定式化である,時間制約付きビデオ推論セグメンテーションを導入する。
また、MVORデータセットからの映像を用いた52のサンプルを含む時間制約付きビデオRSデータセットであるTCVideoRSを提案する。
論文 参考訳(メタデータ) (2025-07-22T15:59:21Z) - Logic-in-Frames: Dynamic Keyframe Search via Visual Semantic-Logical Verification for Long Video Understanding [23.022070084937603]
本稿では,視覚意味論理探索のパラダイムの下で選択を再構成する意味論的検索フレームワークを提案する。
提案手法は,キーフレーム選択の指標を手動でアノテートしたベンチマーク上で,新たなSOTA性能を確立する。
論文 参考訳(メタデータ) (2025-03-17T13:07:34Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - OnlineRefer: A Simple Online Baseline for Referring Video Object
Segmentation [75.07460026246582]
ビデオオブジェクトセグメンテーション(RVOS)は、人間の指示に従ってビデオ内のオブジェクトをセグメンテーションすることを目的としている。
現在の最先端のメソッドはオフラインパターンに陥り、各クリップが独立してテキスト埋め込みと相互作用する。
明示的なクエリ伝搬を用いたシンプルなオンラインモデルである OnlineRefer を提案する。
論文 参考訳(メタデータ) (2023-07-18T15:43:35Z) - Boundary-sensitive Pre-training for Temporal Localization in Videos [124.40788524169668]
本稿では,時間的局所化のためのモデル事前学習について,新しい境界感性プレテキスト(BSP)タスクを導入して検討する。
合成された境界により、BSPは境界型を分類することで簡単に実行できる。
大規模な実験により、提案したBSPは既存の行動分類に基づく事前学習法よりも優れ、相補的であることが示された。
論文 参考訳(メタデータ) (2020-11-21T17:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。