論文の概要: YOSE: You Only Select Essential Tokens for Efficient DiT-based Video Object Removal
- arxiv url: http://arxiv.org/abs/2604.27322v1
- Date: Thu, 30 Apr 2026 02:08:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.875001
- Title: YOSE: You Only Select Essential Tokens for Efficient DiT-based Video Object Removal
- Title(参考訳): YOSE: 効率的なDiTベースのビデオオブジェクト削除に必須のトークンだけを選ぶ
- Authors: Chenyang Wu, Lina Lei, Fan Li, Chun-Le Guo, Dehong Kong, Xinran Qin, Zhixin Wang, Ming-Ming Cheng, Chongyi Li,
- Abstract要約: YOSEはBatch Variable-length Indexing (BVI)とDiffusion Process Simulator (DiffSim)モジュールという2つの重要なコンポーネントを導入している。
BVIは、サンプル間で可変長トークン処理を可能にするマスク情報に基づく必須トークンを選択する。
DiffSimは、不正トークンの拡散プロセス近似機構を提供する。
実験では、YoSEは70%のケースで2.5倍のスピードアップを達成した。
- 参考スコア(独自算出の注目度): 83.78619790270523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Diffusion Transformer (DiT)-based video generation technologies have shown impressive results for video object removal. However, these methods still suffer from substantial inference latency. For instance, although MiniMax Remover achieves state-of-the-art visual quality, it operates at only around 10FPS, primarily due to dense computations over the entire spatiotemporal token space, even when only a small masked region actually requires processing. In this paper, we present YOSE, You Only Select Essential Tokens, an efficient fine-tuning framework. YOSE introduces two key components: Batch Variable-length Indexing (BVI) and Diffusion Process Simulator (DiffSim) Module. BVI is a differentiable dynamic indexing operator that adaptively selects essential tokens based on mask information, enabling variable-length token processing across samples. DiffSim provides a diffusion process approximation mechanism for unmasked tokens, which simulates the influence of unmasked regions within DiT self-attention to maintain semantic consistency for masked tokens. With these designs, YOSE achieves mask-aware acceleration, where the inference time scales approximately linearly with the masked regions, in contrast to full-token diffusion methods whose computation remains constant regardless of the mask size. Extensive experiments demonstrate that YOSE achieves up to 2.5X speedup in 70% of cases while maintaining visual quality comparable to the baseline. Code is available at: https://github.com/Wucy0519/YOSE-CVPR26.
- Abstract(参考訳): 近年, Diffusion Transformer (DiT) による映像生成技術が進歩し, 映像オブジェクトの除去が目覚ましい結果となった。
しかし、これらの手法は依然としてかなりの推論遅延に悩まされている。
例えば、MiniMax Removerは最先端のビジュアル品質を実現するが、10FPS程度しか動作しない。
本稿では,効率的な微調整フレームワークであるYOSE(You Only Select Essential Tokens)を提案する。
YOSEはBatch Variable-length Indexing (BVI)とDiffusion Process Simulator (DiffSim)モジュールという2つの重要なコンポーネントを導入している。
BVIは、マスク情報に基づいて必須トークンを適応的に選択し、サンプル間で可変長トークン処理を可能にする、微分可能な動的インデックス演算子である。
DiffSimは、マスク付きトークンのセマンティック一貫性を維持するために、DiT自己アテンション内の未マスキーク領域の影響をシミュレートする、未マスキークトークンの拡散過程近似機構を提供する。
これらの設計により、YoSEはマスクサイズに関わらず計算が一定であるフルトーケン拡散法とは対照的に、推論時間がマスク領域とほぼ直線的にスケールするマスク認識加速度を実現する。
大規模な実験により、YOSEは70%のケースで2.5倍のスピードアップを実現し、ベースラインに匹敵する視覚的品質を維持した。
コードは、https://github.com/Wucy0519/YOSE-CVPR26.comで入手できる。
関連論文リスト
- Edit-Your-Interest: Efficient Video Editing via Feature Most-Similar Propagation [53.05471174430247]
Edit-Your-Interestはテキスト駆動のゼロショットビデオ編集手法である。
フルシーケンス・テンポラル・モデリング手法に比べて計算オーバーヘッドを低減させる。
効率性と視覚的忠実性の両方において最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2025-10-15T01:55:32Z) - SimulFlow: Simultaneously Extracting Feature and Identifying Target for
Unsupervised Video Object Segmentation [28.19471998380114]
教師なしビデオオブジェクトセグメンテーション(UVOS)は、人間が介在することなく、所定のビデオシーケンス内の一次オブジェクトを検出することを目的としている。
既存のほとんどの手法は、ターゲットを識別してオブジェクトマスクを生成する前に、外観と動き情報を別々に符号化する2ストリームアーキテクチャに依存している。
特徴抽出とターゲット識別を同時に行うSimulFlowと呼ばれる新しいUVOSモデルを提案する。
論文 参考訳(メタデータ) (2023-11-30T06:44:44Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Mask-Free Video Instance Segmentation [102.50936366583106]
ビデオマスクは面倒で高価なアノテーションで、既存のVISデータセットのスケールと多様性を制限している。
我々は、オブジェクト状態のバウンディングボックスアノテーションのみを使用しながら、非常に競争力のあるVIS性能を実現するMaskFreeVISを提案する。
我々のTK-Lossは、効率的なパッチマッチングステップを経て、フレーム間の一対多のマッチを見つけ、続いてK-アネレスの隣り合う選択を行う。
論文 参考訳(メタデータ) (2023-03-28T11:48:07Z) - AdaMAE: Adaptive Masking for Efficient Spatiotemporal Learning with
Masked Autoencoders [44.87786478095987]
Masked Autoencodersは、画像、テキスト、オーディオ、ビデオなどの一般的な表現を、可視データのトークンからマスクされた入力データによって学習する。
本稿では,エンド・ツー・エンドのトレーニングが可能なMAEに対する適応型マスキング戦略を提案する。
AdaMAEは補助サンプリングネットワークを用いて意味的コンテキストに基づいて可視トークンをサンプリングする。
論文 参考訳(メタデータ) (2022-11-16T18:59:48Z) - SipMask: Spatial Information Preservation for Fast Image and Video
Instance Segmentation [149.242230059447]
SipMaskと呼ばれる高速な単一ステージインスタンス分割法を提案する。
検出されたバウンディングボックスの異なるサブリージョンにインスタンスのマスク予測を分離することで、インスタンス固有の空間情報を保存する。
リアルタイム機能の面では、SipMaskはYOLACTを、同様の設定で3.0%(マスクAP)という絶対的なゲインで上回ります。
論文 参考訳(メタデータ) (2020-07-29T12:21:00Z) - BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation [103.74690082121079]
本研究では,インスタンスレベルの情報とセマンティックな情報と,低レベルの微細な粒度を効果的に組み合わせることで,マスク予測の改善を実現する。
私たちの主な貢献は、トップダウンとボトムアップの両方のインスタンスセグメンテーションアプローチからインスピレーションを得たブレンダーモジュールです。
BlendMaskは、非常に少ないチャネルで、ピクセルあたりの高密度な位置感受性インスタンス機能を効果的に予測し、単一の畳み込み層で各インスタンスの注意マップを学習することができる。
論文 参考訳(メタデータ) (2020-01-02T03:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。