論文の概要: Multiscale Video Transformers for Class Agnostic Segmentation in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2508.14729v1
- Date: Wed, 20 Aug 2025 14:23:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.477089
- Title: Multiscale Video Transformers for Class Agnostic Segmentation in Autonomous Driving
- Title(参考訳): 自律運転におけるクラス非依存セグメンテーションのためのマルチスケールビデオトランス
- Authors: Leila Cheshmi, Mennatullah Siam,
- Abstract要約: 我々は、モーションキューのみを用いて未知の物体を検出するマルチスケールビデオトランスフォーマーを開発した。
ビデオのセグメンテーションとパノプティクスのセグメンテーションは、しばしば訓練中に見られる既知のクラスに依存し、新しいカテゴリーを見渡す。
光フローを使わずにクラス非依存のセグメンテーションを訓練した効率的なビデオトランスフォーマーを提案する。
- 参考スコア(独自算出の注目度): 3.138395828947902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring safety in autonomous driving is a complex challenge requiring handling unknown objects and unforeseen driving scenarios. We develop multiscale video transformers capable of detecting unknown objects using only motion cues. Video semantic and panoptic segmentation often relies on known classes seen during training, overlooking novel categories. Recent visual grounding with large language models is computationally expensive, especially for pixel-level output. We propose an efficient video transformer trained end-to-end for class-agnostic segmentation without optical flow. Our method uses multi-stage multiscale query-memory decoding and a scale-specific random drop-token to ensure efficiency and accuracy, maintaining detailed spatiotemporal features with a shared, learnable memory module. Unlike conventional decoders that compress features, our memory-centric design preserves high-resolution information at multiple scales. We evaluate on DAVIS'16, KITTI, and Cityscapes. Our method consistently outperforms multiscale baselines while being efficient in GPU memory and run-time, demonstrating a promising direction for real-time, robust dense prediction in safety-critical robotics.
- Abstract(参考訳): 自律運転における安全性の確保は、未知の物体や予期せぬ運転シナリオを扱う必要がある複雑な課題である。
我々は、モーションキューのみを用いて未知の物体を検出するマルチスケールビデオトランスフォーマーを開発した。
ビデオのセグメンテーションとパノプティクスのセグメンテーションは、しばしば訓練中に見られる既知のクラスに依存し、新しいカテゴリーを見渡す。
大規模言語モデルによる最近の視覚的基盤化は、特にピクセルレベルの出力に対して、計算コストが高い。
光フローを使わずにクラス非依存のセグメンテーションを訓練した効率的なビデオトランスフォーマーを提案する。
提案手法では,多段階のマルチステージクエリメモリデコードとスケール固有のランダムドロップトークンを用いて効率と精度を確保し,共有学習可能なメモリモジュールで詳細な時空間的特徴を維持する。
特徴を圧縮する従来のデコーダとは異なり、メモリ中心の設計は複数のスケールで高解像度情報を保存する。
DAVIS'16,KITTI,Cityscapesについて検討した。
提案手法は,GPUメモリや実行時において効率的でありながら,マルチスケールのベースラインを一貫して上回り,安全クリティカルなロボティクスにおいて,リアルタイムで頑健な予測を行う上で有望な方向性を示す。
関連論文リスト
- Linear Attention with Global Context: A Multipole Attention Mechanism for Vision and Physics [42.41787036246253]
本稿では,マルチポール注意ニューラル演算子 (MANO) について紹介する。
我々は,MANOがViTやSwin Transformerといった最先端モデルと競合する一方で,実行時およびピークメモリ使用量を桁違いに削減していることを示す。
論文 参考訳(メタデータ) (2025-07-03T16:05:26Z) - Learning Motion and Temporal Cues for Unsupervised Video Object Segmentation [49.113131249753714]
本稿では,動きと時間的手がかりを同時に活用する,MTNetと呼ばれる効率的なアルゴリズムを提案する。
MTNetは、エンコーダ内の特徴抽出過程において、外観と動作の特徴を効果的にマージすることによって考案される。
派生した機能を最適に活用するために、すべての機能レベルのデコーダのカスケードを使用します。
論文 参考訳(メタデータ) (2025-01-14T03:15:46Z) - StreamMOS: Streaming Moving Object Segmentation with Multi-View Perception and Dual-Span Memory [21.300636683882338]
本稿では,複数の推論における特徴と予測の関連性を構築するために,StreamMOSと呼ばれるメモリ機構を備えたストリーミングネットワークを提案する。
具体的には、移動物体に先立って空間的と考えられる歴史的特徴を伝えるために、短期記憶を利用する。
また、投影と非対称畳み込みを備えた多視点エンコーダを提案し、異なる表現で物体の運動特徴を抽出する。
論文 参考訳(メタデータ) (2024-07-25T09:51:09Z) - TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and Tracking [33.75267864844047]
ビデオオブジェクト(VOS)は、より大きなデータセットとより複雑で現実的な設定が利用できるという、ますます重要な問題として現れています。
本稿では,上記の課題を体系的に分析し,対処することを目的とした,クリップ型DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、物体が大きな変形を受ける映像の一部に学習を集中させる新しい変換認識損失を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:02:03Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。
提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文 参考訳(メタデータ) (2023-10-03T08:44:50Z) - Multiscale Memory Comparator Transformer for Few-Shot Video Segmentation [8.16038976420041]
本稿では,メタ学習型マルチスケールメモリ比較器 (MMC) を提案する。
従来の作業とは違って、スケール情報交換時の詳細な機能マップを保存します。
我々の手法はベースラインを上回り、最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-07-15T14:21:58Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Multiscale Vision Transformers [79.76412415996892]
本稿では,マルチスケール特徴階層をトランスフォーマモデルに結びつけることで,映像・画像認識のためのマルチスケールビジョントランス (MViT) を提案する。
我々は,視覚信号の密集性を様々な映像認識タスクでモデル化するために,この基本アーキテクチャの事前評価を行う。
論文 参考訳(メタデータ) (2021-04-22T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。