Fugu-MT 論文翻訳(概要): Exploiting Temporal State Space Sharing for Video Semantic Segmentation

論文の概要: Exploiting Temporal State Space Sharing for Video Semantic Segmentation

arxiv url: http://arxiv.org/abs/2503.20824v1
Date: Wed, 26 Mar 2025 01:47:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-28 18:49:11.248652
Title: Exploiting Temporal State Space Sharing for Video Semantic Segmentation
Title（参考訳）: ビデオセマンティックセグメンテーションのための時空間共有
Authors: Syed Ariff Syed Hesham, Yun Liu, Guolei Sun, Henghui Ding, Jing Yang, Ender Konukoglu, Xue Geng, Xudong Jiang,
Abstract要約: ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
参考スコア（独自算出の注目度）: 53.8810901249897
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Video semantic segmentation (VSS) plays a vital role in understanding the temporal evolution of scenes. Traditional methods often segment videos frame-by-frame or in a short temporal window, leading to limited temporal context, redundant computations, and heavy memory requirements. To this end, we introduce a Temporal Video State Space Sharing (TV3S) architecture to leverage Mamba state space models for temporal feature sharing. Our model features a selective gating mechanism that efficiently propagates relevant information across video frames, eliminating the need for a memory-heavy feature pool. By processing spatial patches independently and incorporating shifted operation, TV3S supports highly parallel computation in both training and inference stages, which reduces the delay in sequential state space processing and improves the scalability for long video sequences. Moreover, TV3S incorporates information from prior frames during inference, achieving long-range temporal coherence and superior adaptability to extended sequences. Evaluations on the VSPW and Cityscapes datasets reveal that our approach outperforms current state-of-the-art methods, establishing a new standard for VSS with consistent results across long video sequences. By achieving a good balance between accuracy and efficiency, TV3S shows a significant advancement in spatiotemporal modeling, paving the way for efficient video analysis. The code is publicly available at https://github.com/Ashesham/TV3S.git.
Abstract（参考訳）: ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。この目的のために,時間的特徴共有にマンバ状態空間モデルを活用するために,時間的ビデオ状態空間共有(TV3S)アーキテクチャを導入する。本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。空間パッチを独立に処理し、シフト操作を取り入れることで、TV3Sはトレーニングと推論の両方の段階で高い並列計算をサポートし、シーケンシャルな状態空間処理の遅延を低減し、長いビデオシーケンスのスケーラビリティを向上させる。さらに、TV3Sは、推論中に前のフレームからの情報を取り込み、長距離時間コヒーレンスを実現し、拡張シーケンスへの適応性を向上させる。 VSPWおよびCityscapesデータセットの評価により、我々のアプローチは現在の最先端の手法よりも優れており、長いビデオシーケンスで一貫した結果をもたらすVSSの新しい標準を確立している。精度と効率のバランスを良くすることで、TV3Sは時空間モデリングの大幅な進歩を示し、効率的な映像解析の道を開いた。コードはhttps://github.com/Ashesham/TV3S.gitで公開されている。

関連論文リスト

Towards Long-Form Spatio-Temporal Video Grounding [37.582576273199955]
長期的なビデオは、より長い時間的スパンを含み、より無関係な情報を含んでいる。ビデオシーケンス全体を一度に予測する従来のSTVG法とは異なり、ART-STVGは動画をストリーミング入力フレームとして扱い、順次処理する。異なるモーメントからのメモリは必ずしも現在のフレームに関係しないため、単純かつ効果的なメモリ選択戦略を導入する。
論文参考訳（メタデータ） (2026-02-26T18:04:09Z)
TV-RAG: A Temporal-aware and Semantic Entropy-Weighted Framework for Long Video Retrieval and Understanding [14.570869250170139]
TV-RAGは、時間的アライメントとエントロピー誘導のセマンティクスを結合して、長時間ビデオの推論を改善する、トレーニング不要のアーキテクチャである。これらの時間的および意味的な信号を織り合わせることで、TV-RAGは、再トレーニングや微調整なしに任意のLVLMに移植できる二重レベルの推論ルーチンを実現する。
論文参考訳（メタデータ） (2025-12-29T14:10:22Z)
State Space Prompting via Gathering and Spreading Spatio-Temporal Information for Video Understanding [50.866929044215965]
本稿では,映像理解のためのステートスペース・プロンプティング(SSP)手法を提案する。 SSPはフレーム内のプロンプトを組み合わせて、ビデオ内の重要な時間情報を集約し、伝達する。我々のSSPは、既存のSOTA法を平均2.76%上回っている。
論文参考訳（メタデータ） (2025-10-14T05:30:36Z)
Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。 DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文参考訳（メタデータ） (2024-10-22T21:21:37Z)
You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文参考訳（メタデータ） (2023-03-14T12:53:27Z)
Continuous Space-Time Video Super-Resolution Utilizing Long-Range Temporal Information [48.20843501171717]
本稿では,任意のフレームレートと空間解像度に変換可能な連続ST-VSR(CSTVSR)手法を提案する。本稿では,提案アルゴリズムの柔軟性が向上し,各種データセットの性能が向上することを示す。
論文参考訳（メタデータ） (2023-02-26T08:02:39Z)
MEGAN: Memory Enhanced Graph Attention Network for Space-Time Video Super-Resolution [8.111645835455658]
時空ビデオスーパー解像度(STVSR)は、対応する低フレームレートの低解像度ビデオシーケンスから高解像度ビデオシーケンスを構築することを目的としている。近年の時空超解像における時空間情報の考察の成功に触発されて,本研究の主な目的は空間的・時空間的相関を十分に考慮することである。
論文参考訳（メタデータ） (2021-10-28T17:37:07Z)
Temporal Modulation Network for Controllable Space-Time Video Super-Resolution [66.06549492893947]
宇宙時間のビデオ超解像度は、低解像度と低フレームレートのビデオの空間的および時間的解像度を高めることを目指しています。変形性畳み込み法は、有望なSTVSR性能を達成したが、トレーニング段階で事前に定義された中間フレームのみを推測することができた。本稿では,任意の中間フレームを高精度な高分解能再構成で補間する時間変調ネットワーク(tmnet)を提案する。
論文参考訳（メタデータ） (2021-04-21T17:10:53Z)
Dual Temporal Memory Network for Efficient Video Object Segmentation [42.05305410986511]
ビデオオブジェクト(VOS)の基本的な課題の1つは、時間情報を最大限活用してパフォーマンスを向上する方法である。本稿では,現在のフレームに先行する短・長期のビデオシーケンス情報を時間記憶として格納するエンド・ツー・エンド・ネットワークを提案する。我々のネットワークは、短期記憶サブネットワークと長期記憶サブネットワークを含む2つの時間的サブネットワークで構成されている。
論文参考訳（メタデータ） (2020-03-13T06:07:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。