論文の概要: Search2Motion: Training-Free Object-Level Motion Control via Attention-Consensus Search
- arxiv url: http://arxiv.org/abs/2603.16711v1
- Date: Tue, 17 Mar 2026 16:02:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.392286
- Title: Search2Motion: Training-Free Object-Level Motion Control via Attention-Consensus Search
- Title(参考訳): Search2Motion: Attention-Consensus Searchによる学習不要なオブジェクトレベル動作制御
- Authors: Sainan Liu, Tz-Ying Wu, Hector A Valdez, Subarna Tripathi,
- Abstract要約: 画像・ビデオ生成におけるオブジェクトレベルのモーション編集のためのトレーニング不要なフレームワークであるSearch2Motionを提案する。
トラジェクトリ、バウンディングボックス、マスク、モーションフィールドを必要とする従来の方法とは異なり、Search2Motionはターゲットフレームベースの制御を採用する。
Search2Motion は FLF2V-obj と VBench のベースラインを一貫して上回っていることを示す。
- 参考スコア(独自算出の注目度): 11.772064059088821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Search2Motion, a training-free framework for object-level motion editing in image-to-video generation. Unlike prior methods requiring trajectories, bounding boxes, masks, or motion fields, Search2Motion adopts target-frame-based control, leveraging first-last-frame motion priors to realize object relocation while preserving scene stability without fine-tuning. Reliable target-frame construction is achieved through semantic-guided object insertion and robust background inpainting. We further show that early-step self-attention maps predict object and camera dynamics, offering interpretable user feedback and motivating ACE-Seed (Attention Consensus for Early-step Seed selection), a lightweight search strategy that improves motion fidelity without look-ahead sampling or external evaluators. Noting that existing benchmarks conflate object and camera motion, we introduce S2M-DAVIS and S2M-OMB for stable-camera, object-only evaluation, alongside FLF2V-obj metrics that isolate object artifacts without requiring ground-truth trajectories. Search2Motion consistently outperforms baselines on FLF2V-obj and VBench.
- Abstract(参考訳): 画像・ビデオ生成におけるオブジェクトレベルのモーション編集のためのトレーニング不要なフレームワークであるSearch2Motionを提案する。
トラジェクトリー、バウンディングボックス、マスク、モーションフィールドを必要とする従来の方法とは異なり、Search2Motionはターゲットフレームベースの制御を採用し、微調整なしでシーン安定性を維持しながらオブジェクトの移動を実現する。
信頼性の高いターゲットフレーム構築は、セマンティック誘導オブジェクト挿入とロバストな背景塗装によって達成される。
さらに、早期の自己注意マップがオブジェクトとカメラのダイナミクスを予測し、解釈可能なユーザフィードバックとACE-Seed(早期のシード選択のための注意合意)を動機付け、ルックアヘッドサンプリングや外部評価を行うことなく、動きの忠実度を向上させる軽量な検索戦略であることを示す。
S2M-DAVIS と S2M-OMB を安定カメラ, 物体のみの評価用として, FLF2V-obj 測定値と組み合わせて, 地中軌道を必要とせず, 対象物を分離する手法を提案する。
Search2Motionは、FLF2V-objとVBenchのベースラインを一貫して上回る。
関連論文リスト
- DynamicEval: Rethinking Evaluation for Dynamic Text-to-Video Synthesis [17.750053029702222]
既存のテキスト・トゥ・ビデオ(T2V)評価ベンチマークであるVBenchやEvalCrafterには2つの制限がある。
ダイナミックカメラの動きを強調するプロンプトを体系的にキュレートしたベンチマークであるDynamicEvalを紹介する。
背景環境の整合性を示すために,Vbench運動の滑らか度測定値に基づく解釈可能な誤差マップを得る。
提案手法は,映像レベルとモデルレベルの両方において,人間の嗜好と強い相関関係を示す。
論文 参考訳(メタデータ) (2025-10-08T18:41:04Z) - SAMITE: Position Prompted SAM2 with Calibrated Memory for Visual Object Tracking [58.35852822355312]
Visual Object Tracking (VOT)は、ビデオ内のターゲットを継続的に追跡する自律運転のようなアプリケーションで広く使われている。
これらの問題に対処するために、ビデオ基盤モデルSAM2をVOTに適用し、各フレームの追跡結果をメモリとして符号化し、残りのフレームを自己回帰的に条件付けする手法を提案する。
これらの課題に対処するために,SAM2 上にモジュールを追加して構築した SAMITE モデルを提案する。
論文 参考訳(メタデータ) (2025-07-29T12:11:56Z) - C-Drag: Chain-of-Thought Driven Motion Controller for Video Generation [81.4106601222722]
トラジェクティブに基づくモーションコントロールは、制御可能なビデオ生成のための直感的で効率的なアプローチとして登場した。
我々はC-Dragという制御可能なビデオ生成のためのチェーン・オブ・ソート型モーションコントローラを提案する。
本手法は,物体認識モジュールとChain-of-Thoughtベースの動作推論モジュールを含む。
論文 参考訳(メタデータ) (2025-02-27T08:21:03Z) - MONA: Moving Object Detection from Videos Shot by Dynamic Camera [20.190677328673836]
ダイナミックカメラで撮影されたビデオから、ロバストな移動物体の検出とセグメンテーションを行うためのフレームワークであるMONAを紹介する。
MonAは2つの重要なモジュールから構成される: 動的ポイント抽出(Dynamic Points extract)は光学フローを活用し、動的ポイントを識別するための任意のポイントを追跡する。
カメラ軌道推定手法LEAP-VOと統合してMONAを検証する。
論文 参考訳(メタデータ) (2025-01-22T19:30:28Z) - MATE: Motion-Augmented Temporal Consistency for Event-based Point Tracking [58.719310295870024]
本稿では,任意の点を追跡するイベントベースのフレームワークを提案する。
事象の間隔に起因する曖昧さを解決するため、運動誘導モジュールは運動ベクトルを局所的なマッチングプロセスに組み込む。
このメソッドは、任意のポイントベースラインのイベントのみのトラッキングに対して、$Survival_50$メトリックを17.9%改善する。
論文 参考訳(メタデータ) (2024-12-02T09:13:29Z) - Traffic Video Object Detection using Motion Prior [16.63738085066699]
本稿では,先行動作を利用した2つの革新的な手法を提案し,トラヒックビデオオブジェクト検出の性能を向上する。
まず、時間情報統合を導く前に動きを利用する新しい自己認識モジュールを導入する。
次に、擬似ラベリング機構を用いて、半教師付き設定のためのノイズの多い擬似ラベルを除去する。
論文 参考訳(メタデータ) (2023-11-16T18:59:46Z) - DORT: Modeling Dynamic Objects in Recurrent for Multi-Camera 3D Object
Detection and Tracking [67.34803048690428]
本稿では、この問題を解決するためにRecurrenT(DORT)の動的オブジェクトをモデル化することを提案する。
DORTは、重い計算負担を軽減する動き推定のために、オブジェクトワイズローカルボリュームを抽出する。
フレキシブルで実用的で、ほとんどのカメラベースの3Dオブジェクト検出器に差し込むことができる。
論文 参考訳(メタデータ) (2023-03-29T12:33:55Z) - Attentive and Contrastive Learning for Joint Depth and Motion Field
Estimation [76.58256020932312]
単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは複雑な作業である。
モノクロ映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:45:01Z) - End-to-end Learning of Object Motion Estimation from Retinal Events for
Event-based Object Tracking [35.95703377642108]
イベントベースオブジェクト追跡のためのパラメトリックオブジェクトレベルの動き/変換モデルを学習し、回帰する新しいディープニューラルネットワークを提案する。
この目的を達成するために,線形時間減衰表現を用いた同期時間曲面を提案する。
我々は、TSLTDフレームのシーケンスを新しい網膜運動回帰ネットワーク(RMRNet)に供給し、エンド・ツー・エンドの5-DoFオブジェクト・モーション・レグレッションを実行する。
論文 参考訳(メタデータ) (2020-02-14T08:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。