論文の概要: Live Interactive Training for Video Segmentation
- arxiv url: http://arxiv.org/abs/2603.26929v1
- Date: Fri, 27 Mar 2026 19:10:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.695466
- Title: Live Interactive Training for Video Segmentation
- Title(参考訳): ビデオセグメンテーションのためのライブインタラクティブトレーニング
- Authors: Xinyu Yang, Haozheng Yu, Yihong Sun, Bharath Hariharan, Jennifer J. Sun,
- Abstract要約: 本稿では,プロンプトベースの視覚システムのための新しいフレームワークであるLive Interactive Training (LIT)を紹介する。
我々の主要なインスタンスであるLIT-LoRAは、軽量のLoRAモジュールをオンザフライで継続的に更新することでこれを実装します。
我々のLIT-LoRA実装は、挑戦的なビデオセグメンテーションベンチマークの総修正を平均18~34%削減する。
- 参考スコア(独自算出の注目度): 41.00426438707627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive video segmentation often requires many user interventions for robust performance in challenging scenarios (e.g., occlusions, object separations, camouflage, etc.). Yet, even state-of-the-art models like SAM2 use corrections only for immediate fixes without learning from this feedback, leading to inefficient, repetitive user effort. To address this, we introduce Live Interactive Training (LIT), a novel framework for prompt-based visual systems where models also learn online from human corrections at inference time. Our primary instantiation, LIT-LoRA, implements this by continually updating a lightweight LoRA module on-the-fly. When a user provides a correction, this module is rapidly trained on that feedback, allowing the vision system to improve performance on subsequent frames of the same video. Leveraging the core principles of LIT, our LIT-LoRA implementation achieves an average 18-34% reduction in total corrections on challenging video segmentation benchmarks, with a negligible training overhead of ~0.5s per correction. We further demonstrate its generality by successfully adapting it to other segmentation models and extending it to CLIP-based fine-grained image classification. Our work highlights the promise of live adaptation to transform interactive tools and significantly reduce redundant human effort in complex visual tasks. Project: https://youngxinyu1802.github.io/projects/LIT/.
- Abstract(参考訳): インタラクティブなビデオセグメンテーションは、難しいシナリオ(例えば、オクルージョン、オブジェクト分離、カモフラージュなど)において、堅牢なパフォーマンスのために多くのユーザ介入を必要とすることが多い。
しかし、SAM2のような最先端のモデルでさえ、このフィードバックから学ぶことなく即時修正にのみ修正を使用します。
この問題を解決するために、モデルが推論時に人間の修正からオンラインで学習するプロンプトベースの視覚システムのための新しいフレームワークであるLive Interactive Training (LIT)を紹介した。
我々の主要なインスタンスであるLIT-LoRAは、軽量のLoRAモジュールをオンザフライで継続的に更新することでこれを実装します。
ユーザが修正を行うと、このモジュールはそのフィードバックに基づいて迅速にトレーニングされる。
LITのコア原則を活用することで、LIT-LoRA実装は、挑戦的なビデオセグメンテーションベンチマークの総修正を平均18~34%削減し、1修正あたり0.5秒のトレーニングオーバーヘッドを無視できる。
さらに、他のセグメンテーションモデルに適応し、CLIPに基づくきめ細かい画像分類に拡張することで、その一般化を実証する。
我々の研究は、インタラクティブなツールを変換し、複雑な視覚タスクにおける冗長な人間の労力を大幅に削減するライブ適応の可能性を強調している。
プロジェクト:https://youngxinyu1802.github.io/projects/LIT/。
関連論文リスト
- RAZOR: Ratio-Aware Layer Editing for Targeted Unlearning in Vision Transformers and Diffusion Models [1.8986796884429726]
Ratio-Aware Zero/One-stepOptimized Retentive Unlearning (RAZOR)を紹介する。
RAZORは、コーディネートされた複数層とマルチヘッドの編集をトランスフォーマーバックボーン内で忘れる更新を一般化する。
RAZORは量子化下であっても高精度で安定な記憶を実現することを示す。
論文 参考訳(メタデータ) (2026-03-16T04:47:37Z) - TIDE: Temporal Incremental Draft Engine for Self-Improving LLM Inference [1.0091292967761423]
TIDEは、オンラインドラフト適応を直接高性能なLLM推論システムに統合する、サービスエンジニアリングネイティブフレームワークである。
TIDEは、推論中に生成されたターゲットモデルをトレーニング信号として再利用し、ターゲットモデルを再ロードすることなく、ゼロオーバーヘッドのドラフト適応を可能にする。
さまざまな現実世界のワークロードに対して、TIDEは静的投機的復号化よりも最大1.15倍のスループット向上を実現している。
論文 参考訳(メタデータ) (2026-02-05T00:06:12Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Learning from One Continuous Video Stream [70.30084026960819]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文 参考訳(メタデータ) (2023-12-01T14:03:30Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。
これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。
我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文 参考訳(メタデータ) (2021-11-11T15:15:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。