論文の概要: Point Prompting: Counterfactual Tracking with Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2510.11715v1
- Date: Mon, 13 Oct 2025 17:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.506741
- Title: Point Prompting: Counterfactual Tracking with Video Diffusion Models
- Title(参考訳): ポイントプロンプティング:ビデオ拡散モデルによる非現実的追跡
- Authors: Ayush Shrivastava, Sanyam Mehta, Daniel Geng, Andrew Owens,
- Abstract要約: 予め訓練したビデオ拡散モデルでは、時間とともに動いたときに視覚的にポイントをマークするように促すことで、ゼロショットポイント追跡を行うことができることを示す。
これらの「創発的」トラックは、以前のゼロショット法よりも優れており、隠蔽を通して持続し、しばしば専門的な自己監督モデルと競合する性能を得る。
- 参考スコア(独自算出の注目度): 43.14521227774401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trackers and video generators solve closely related problems: the former analyze motion, while the latter synthesize it. We show that this connection enables pretrained video diffusion models to perform zero-shot point tracking by simply prompting them to visually mark points as they move over time. We place a distinctively colored marker at the query point, then regenerate the rest of the video from an intermediate noise level. This propagates the marker across frames, tracing the point's trajectory. To ensure that the marker remains visible in this counterfactual generation, despite such markers being unlikely in natural videos, we use the unedited initial frame as a negative prompt. Through experiments with multiple image-conditioned video diffusion models, we find that these "emergent" tracks outperform those of prior zero-shot methods and persist through occlusions, often obtaining performance that is competitive with specialized self-supervised models.
- Abstract(参考訳): トラッカーとビデオジェネレータは、前者は動きを分析し、後者はそれを合成する。
この接続により、予め訓練したビデオ拡散モデルが、時間とともに動いたときに視覚的にポイントをマークするように促すことで、ゼロショットポイント追跡を行うことができることを示す。
クエリポイントに特徴的な色のマーカーを配置した後、中間ノイズレベルから残りの映像を再生する。
これにより、マーカーがフレームをまたいで伝播し、点の軌跡を辿る。
このようなマーカーが自然ビデオではありそうもないにもかかわらず、この逆生成においてマーカーが引き続き見えるようにするために、未編集の初期フレームを負のプロンプトとして使用する。
複数の画像条件付きビデオ拡散モデルによる実験により、これらの「創発的」トラックは、以前のゼロショット法よりも優れ、オクルージョンを通して持続し、しばしば専門的な自己監督型モデルと競合する性能を得る。
関連論文リスト
- Emergent Temporal Correspondences from Video Diffusion Transformers [30.83001895223298]
DiffTrackは、この問題に答えるために設計された最初の定量的分析フレームワークである。
分析の結果,特定のクエリキーの類似性がすべてではないが,時間的マッチングにおいて重要な役割を担っていることが明らかとなった。
本研究は,映像の時間的整合性を改善する新たなガイダンス法により,動画の動作向上に拡張する。
論文 参考訳(メタデータ) (2025-06-20T17:59:55Z) - Direct Motion Models for Assessing Generated Videos [38.04485796547767]
ビデオ生成ビデオモデルの現在の制限は、可視的に見えるフレームを生成するが、動きが貧弱であることである。
ここでは、妥当な物体の相互作用と動きをよりよく測定する指標を開発することで、FVDを超えていく。
画素再構成や動作認識の代わりに点線を用いると、合成データの時間歪みに顕著に敏感な測定結果が得られることを示す。
論文 参考訳(メタデータ) (2025-04-30T22:34:52Z) - Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - VGMShield: Mitigating Misuse of Video Generative Models [7.1819804607793705]
VGMShieldは、フェイクビデオ生成のライフサイクルを通じて、単純だが効果的な軽減策のセットである。
まずは偽のビデオ検出から始め、生成されたビデオにユニークさがあるかどうかを理解します。
そこで本研究では,偽動画を生成したモデルにマッピングする,偽ビデオソース追跡問題について検討する。
論文 参考訳(メタデータ) (2024-02-20T16:39:23Z) - Refining Pre-Trained Motion Models [56.18044168821188]
我々は、自己教師付きトレーニングによる最先端の教師付きモデルの改善に挑戦する。
実世界の未学習ビデオから「クリーン」な訓練信号を得ることに重点を置いている。
本研究では,本手法が実動画における完全教師付き手法よりも信頼性が高いことを示す。
論文 参考訳(メタデータ) (2024-01-01T18:59:33Z) - Tracking by Associating Clips [110.08925274049409]
本稿では,オブジェクト関連をクリップワイドマッチングとして扱う方法を検討する。
我々の新しい視点では、1つの長いビデオシーケンスを複数のショートクリップとみなし、そのトラックはクリップ内とクリップ間の両方で実行される。
この新しい手法の利点は2つある。まず、ビデオチャンキングによって中断フレームをバイパスできるため、エラーの蓄積や伝播の追跡に頑健である。
次に、クリップワイドマッチング中に複数のフレーム情報を集約し、現在のフレームワイドマッチングよりも高精度な長距離トラックアソシエーションを実現する。
論文 参考訳(メタデータ) (2022-12-20T10:33:17Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Motion-Excited Sampler: Video Adversarial Attack with Sparked Prior [63.11478060678794]
そこで本研究では,前もってモーションアウェアノイズを得るための効果的なモーションエキサイティングサンプリング手法を提案する。
より少ないクエリ数で様々なビデオ分類モデルを攻撃することができる。
論文 参考訳(メタデータ) (2020-03-17T10:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。