論文の概要: Point2Insert: Video Object Insertion via Sparse Point Guidance
- arxiv url: http://arxiv.org/abs/2602.04167v1
- Date: Wed, 04 Feb 2026 03:01:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.351757
- Title: Point2Insert: Video Object Insertion via Sparse Point Guidance
- Title(参考訳): Point2Insert:スパースポイント誘導によるビデオオブジェクト挿入
- Authors: Yu Zhou, Xiaoyan Yang, Bojia Zi, Lihan Zhang, Ruijie Sun, Weishi Zheng, Haibin Huang, Chi Zhang, Xuelong Li,
- Abstract要約: Point2Insertは、ビデオにフレキシブルでユーザフレンドリーなオブジェクト挿入のためのスパースポイントベースのフレームワークである。
正の点と負の点の両方をサポートし、挿入に適した領域または挿入に適さない領域を示す。
一貫して強力なベースラインを上回り、$times$10のパラメータを持つモデルを超えています。
- 参考スコア(独自算出の注目度): 77.16016342941866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces Point2Insert, a sparse-point-based framework for flexible and user-friendly object insertion in videos, motivated by the growing popularity of accurate, low-effort object placement. Existing approaches face two major challenges: mask-based insertion methods require labor-intensive mask annotations, while instruction-based methods struggle to place objects at precise locations. Point2Insert addresses these issues by requiring only a small number of sparse points instead of dense masks, eliminating the need for tedious mask drawing. Specifically, it supports both positive and negative points to indicate regions that are suitable or unsuitable for insertion, enabling fine-grained spatial control over object locations. The training of Point2Insert consists of two stages. In Stage 1, we train an insertion model that generates objects in given regions conditioned on either sparse-point prompts or a binary mask. In Stage 2, we further train the model on paired videos synthesized by an object removal model, adapting it to video insertion. Moreover, motivated by the higher insertion success rate of mask-guided editing, we leverage a mask-guided insertion model as a teacher to distill reliable insertion behavior into the point-guided model. Extensive experiments demonstrate that Point2Insert consistently outperforms strong baselines and even surpasses models with $\times$10 more parameters.
- Abstract(参考訳): 本稿では,ビデオ中のフレキシブルでユーザフレンドリーなオブジェクト挿入のためのスパースポイントベースのフレームワークであるPoint2Insertを紹介する。
既存のアプローチは2つの大きな課題に直面している: マスクベースの挿入手法は労働集約型のマスクアノテーションを必要とし、命令ベースの手法はオブジェクトを正確な位置に配置するのに苦労する。
Point2Insertは、密集したマスクの代わりに少数のスパースポイントしか必要とせず、面倒なマスク描画を不要にすることで、これらの問題に対処する。
具体的には、正点と負点の両方をサポートし、挿入に適した領域または挿入に適さない領域を示し、オブジェクト位置のきめ細かい空間制御を可能にする。
Point2Insertのトレーニングは2つのステージで構成されている。
ステージ1では、スパースポイントプロンプトまたはバイナリマスクで条件付けられた所定の領域のオブジェクトを生成する挿入モデルを訓練する。
ステージ2では、オブジェクト除去モデルによって合成されたペアビデオのモデルをさらに訓練し、ビデオ挿入に適応する。
さらに,マスク誘導編集の挿入成功率の向上を動機として,マスク誘導挿入モデルを教師として活用し,信頼性の高い挿入動作をポイント誘導モデルに再現する。
大規模な実験では、Point2Insertは強いベースラインを一貫して上回り、$\times$10以上のパラメータを持つモデルを超えている。
関連論文リスト
- GeoSAM2: Unleashing the Power of SAM2 for 3D Part Segmentation [81.0871900167463]
GeoSAM2は3次元部分分割のためのプロンプト制御可能なフレームワークである。
テクスチャのないオブジェクトが与えられた場合、事前に定義された視点から正規写像とポイントマップを描画する。
部品の選択をガイドするシンプルな2Dプロンプト(クリックやボックス)を受け入れます。
予測されたマスクはオブジェクトにバックプロジェクションされ、ビューに集約される。
論文 参考訳(メタデータ) (2025-08-19T17:58:51Z) - Pro2SAM: Mask Prompt to SAM with Grid Points for Weakly Supervised Object Localization [54.91271106816616]
本稿では,WSOLタスクのグリッドポイントを持つSAM(Pro2SAM)ネットワークに対して,革新的なマスクプロンプトを提案する。
まず,グローバルトークン変換器(GTFormer)を設計し,フレキシブルマスクプロンプトとして粗粒のフォアグラウンドマップを生成する。
第2に,フォアグラウンドマスクの確率を最大化するために,密度の高いプロンプトとしてグリッドポイントをSAMに配信する。
論文 参考訳(メタデータ) (2025-05-08T02:44:53Z) - Tiny Object Detection with Single Point Supervision [48.88814240556747]
本稿では,航空画像におけるロバストな微小物体検出のためのポイント・インスツルメンテーション法を提案する。
点アノテーションにおけるスケールの曖昧さと位置変化からラベルノイズを扱うために、ポイント・インストラクターは教師-学生アーキテクチャを採用している。
この枠組みでは、画像領域のランダムマスキングにより回帰学習が促進され、教師はノイズの多い点アノテーションを粗い擬似ボックスに変換することができる。
第2段階では、これらの粗い擬似ボックスは動的多重インスタンス学習を用いて洗練され、最も信頼できるインスタンスを適応的に選択する。
論文 参考訳(メタデータ) (2024-12-08T07:13:17Z) - Dynamic Pseudo Label Optimization in Point-Supervised Nuclei Segmentation [17.698430642075813]
我々は、textbfDynamic pseudo label textbfOptimization in point-supervised textbfNuclei textbfSegmentation を実現するDoNuSegというフレームワークを提案する。
DoNuSegは、クラスアクティベーションマップ(CAM)を利用して、アノテーション付きポイントに似た意味を持つ領域を適応的にキャプチャする。
論文 参考訳(メタデータ) (2024-06-24T08:20:53Z) - Extreme Point Supervised Instance Segmentation [28.191795758445352]
本稿では,各オブジェクトの極端点,左極端点,最下極点,右極端点を用いて,インスタンスセグメンテーションを学習するための新しいアプローチを提案する。
これらの点は、正確なセグメンテーションのための強力な手がかりを提供しながら、現代のバウンディングボックスアノテーションプロセスで容易に利用可能である。
本モデルでは,対象物を複数の部品に分けた場合に高品質なマスクを生成する。
論文 参考訳(メタデータ) (2024-05-31T09:37:39Z) - CPCM: Contextual Point Cloud Modeling for Weakly-supervised Point Cloud
Semantic Segmentation [60.0893353960514]
疎アノテーションを用いた弱教師付きポイントクラウドセマンティックセマンティックセグメンテーションの課題について検討する。
本研究では,地域マスキング(RegionMask)戦略とコンテキストマスキングトレーニング(CMT)手法の2つの部分からなるコンテキストポイントクラウドモデリング(CPCM)手法を提案する。
論文 参考訳(メタデータ) (2023-07-19T04:41:18Z) - Accelerating the creation of instance segmentation training sets through
bounding box annotation [25.85927871251385]
我々の研究は、半自動的なアプローチに基づいて、インスタンスを3つのステップで記述することを提案する。
極端点の唯一の定義は、マスクが完全に手動で記述された場合、最大10倍の資源を必要とするモデル精度をもたらす。
論文 参考訳(メタデータ) (2022-05-23T18:37:03Z) - Pointly-Supervised Instance Segmentation [81.34136519194602]
インスタンスセグメンテーションの弱い監視の新しい形態であるポイントベースのインスタンスレベルのアノテーションを提案する。
標準のバウンディングボックスアノテーションと、各バウンディングボックス内で一様にサンプリングされるラベル付きポイントを組み合わせる。
実験では,COCO,PASCAL VOC,Cityscapes,LVISでトレーニングしたMask R-CNNモデルに対して,各オブジェクトあたりの注釈付きポイントが94%~98%の完全教師付きパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-04-13T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。