論文の概要: DINTR: Tracking via Diffusion-based Interpolation
- arxiv url: http://arxiv.org/abs/2410.10053v1
- Date: Mon, 14 Oct 2024 00:41:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 03:23:50.246954
- Title: DINTR: Tracking via Diffusion-based Interpolation
- Title(参考訳): DINTR:拡散型補間による追跡
- Authors: Pha Nguyen, Ngan Le, Jackson Cothren, Alper Yilmaz, Khoa Luu,
- Abstract要約: 本研究は,トラッキングタスクを定式化するための拡散に基づく新しい手法を提案する。
我々のInterpolation TrackeR(DINTR)は、将来性のある新しいパラダイムを示し、5つの指標表現にまたがる7つのベンチマークにおいて優れた乗法を実現する。
- 参考スコア(独自算出の注目度): 12.130669304428565
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Object tracking is a fundamental task in computer vision, requiring the localization of objects of interest across video frames. Diffusion models have shown remarkable capabilities in visual generation, making them well-suited for addressing several requirements of the tracking problem. This work proposes a novel diffusion-based methodology to formulate the tracking task. Firstly, their conditional process allows for injecting indications of the target object into the generation process. Secondly, diffusion mechanics can be developed to inherently model temporal correspondences, enabling the reconstruction of actual frames in video. However, existing diffusion models rely on extensive and unnecessary mapping to a Gaussian noise domain, which can be replaced by a more efficient and stable interpolation process. Our proposed interpolation mechanism draws inspiration from classic image-processing techniques, offering a more interpretable, stable, and faster approach tailored specifically for the object tracking task. By leveraging the strengths of diffusion models while circumventing their limitations, our Diffusion-based INterpolation TrackeR (DINTR) presents a promising new paradigm and achieves a superior multiplicity on seven benchmarks across five indicator representations.
- Abstract(参考訳): オブジェクトトラッキングはコンピュータビジョンにおける基本的なタスクであり、ビデオフレーム間で関心のあるオブジェクトをローカライズする必要がある。
拡散モデルは視覚生成において顕著な能力を示しており、追跡問題のいくつかの要件に対処するのに適している。
本研究は,トラッキングタスクを定式化するための拡散に基づく新しい手法を提案する。
まず、条件付きプロセスは、ターゲットオブジェクトの指示を生成プロセスに注入することができる。
第二に、拡散力学は時間的対応を本質的にモデル化し、ビデオ内の実際のフレームの再構築を可能にする。
しかし、既存の拡散モデルはガウスノイズ領域への広範かつ不要なマッピングに依存しており、より効率的で安定した補間処理に置き換えることができる。
提案する補間機構は,従来の画像処理技術からインスピレーションを得て,オブジェクト追跡タスクに特化して,より解釈可能な,安定した,より高速なアプローチを提供する。
拡散モデルの強みを回避しつつ、その限界を回避し、拡散に基づくInterpolation TrackeR(DINTR)は、有望な新しいパラダイムを示し、5つの指標表現にまたがる7つのベンチマークにおいて優れた乗法を実現する。
関連論文リスト
- Diff-VPS: Video Polyp Segmentation via a Multi-task Diffusion Network with Adversarial Temporal Reasoning [12.37208687991656]
本稿では,Diff-VPSと呼ばれるビデオポリプセグメンテーションタスクのための新しい拡散型ネットワークを提案する。
マルチタスクの監視を拡散モデルに組み込んで,画素ごとのセグメンテーションにおける拡散モデルの識別を促進する。
時間的依存を探索するため、TRM(Temporal Reasoning Module)は、以前のフレームからターゲットフレームを推論および再構成することで考案される。
論文 参考訳(メタデータ) (2024-09-11T12:51:41Z) - Motion-aware Latent Diffusion Models for Video Frame Interpolation [51.78737270917301]
隣接するフレーム間の動き推定は、動きのあいまいさを避ける上で重要な役割を担っている。
我々は、新しい拡散フレームワーク、動き認識潜在拡散モデル(MADiff)を提案する。
提案手法は,既存手法を著しく上回る最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T05:09:56Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via
Self-supervised Learning [42.009856923352864]
拡散モデルは、シーケンス・モデリング方式で行動的クローニングに採用されている。
拡散に基づくビジュモータポリシー学習の簡易かつ効果的な手法であるクロスウェイ拡散を提案する。
シミュレーションおよび実世界のロボット作業におけるクロスウェイ拡散の有効性を実証した。
論文 参考訳(メタデータ) (2023-07-04T17:59:29Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。