論文の概要: Transforming Static Images Using Generative Models for Video Salient Object Detection
- arxiv url: http://arxiv.org/abs/2411.13975v1
- Date: Thu, 21 Nov 2024 09:41:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:19:04.756748
- Title: Transforming Static Images Using Generative Models for Video Salient Object Detection
- Title(参考訳): 映像有向物体検出のための生成モデルを用いた静的画像の変換
- Authors: Suhwan Cho, Minhyeok Lee, Jungho Lee, Sangyoun Lee,
- Abstract要約: 本研究では,画像成分間の文脈的関係を理解しつつ,静止画像の現実的な変換を画像間拡散モデルで生成できることを示す。
この能力により、モデルは、シーン要素の独立な動きを反映しながらセマンティックな整合性を保ちながら、可塑性光フローを生成することができる。
我々のアプローチは、すべての公開ベンチマークデータセットで最先端のパフォーマンスを実現し、既存のアプローチよりも優れています。
- 参考スコア(独自算出の注目度): 15.701293552584863
- License:
- Abstract: In many video processing tasks, leveraging large-scale image datasets is a common strategy, as image data is more abundant and facilitates comprehensive knowledge transfer. A typical approach for simulating video from static images involves applying spatial transformations, such as affine transformations and spline warping, to create sequences that mimic temporal progression. However, in tasks like video salient object detection, where both appearance and motion cues are critical, these basic image-to-video techniques fail to produce realistic optical flows that capture the independent motion properties of each object. In this study, we show that image-to-video diffusion models can generate realistic transformations of static images while understanding the contextual relationships between image components. This ability allows the model to generate plausible optical flows, preserving semantic integrity while reflecting the independent motion of scene elements. By augmenting individual images in this way, we create large-scale image-flow pairs that significantly enhance model training. Our approach achieves state-of-the-art performance across all public benchmark datasets, outperforming existing approaches.
- Abstract(参考訳): 多くのビデオ処理タスクでは、画像データが豊富であり、包括的な知識伝達を促進するため、大規模な画像データセットを活用することが一般的な戦略である。
静的画像から映像をシミュレートするための典型的なアプローチは、時相進行を模倣するシーケンスを生成するために、アフィン変換やスプラインワープのような空間変換を適用することである。
しかし、外見と動きの両方が重要となる映像有向物体検出のようなタスクでは、これらの基本的な画像対ビデオ技術は、各物体の独立な運動特性をキャプチャする現実的な光学的フローを生成できない。
本研究では,画像成分間の文脈的関係を理解しながら,画像間拡散モデルが静的画像の現実的な変換を生成可能であることを示す。
この能力により、モデルは、シーン要素の独立な動きを反映しながらセマンティックな整合性を保ちながら、可塑性光フローを生成することができる。
このように個々の画像を拡大することにより、モデルトレーニングを大幅に強化する大規模なイメージフローペアを作成する。
我々のアプローチは、すべての公開ベンチマークデータセットで最先端のパフォーマンスを実現し、既存のアプローチよりも優れています。
関連論文リスト
- Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - Generative Image Dynamics [80.70729090482575]
本研究では,シーン動作に先立って画像空間をモデル化する手法を提案する。
我々の先行研究は、実映像から抽出した動き軌跡の収集から得られたものである。
論文 参考訳(メタデータ) (2023-09-14T17:54:01Z) - MPI-Flow: Learning Realistic Optical Flow with Multiplane Images [18.310665144874775]
実世界の画像からリアルな光フローデータセットを生成する。
高度に現実的な新しい画像を生成するため,単視点画像から多平面画像(MPI)と呼ばれる層状深度表現を構築した。
動きの現実性を確保するため,MPI内のカメラと動的物体の動きを分離できる独立な物体運動モジュールを提案する。
論文 参考訳(メタデータ) (2023-09-13T04:31:00Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Latent Image Animator: Learning to Animate Images via Latent Space
Navigation [11.286071873122658]
本稿では,構造表現の必要性を回避する自己教師型オートエンコーダであるLatent Image Animator(LIA)を紹介する。
LIAは、潜時空間における線形ナビゲーションにより画像をアニメーションするために合理化され、特に、潜時空間における符号の線形変位によって生成されたビデオ内の動きが構成される。
論文 参考訳(メタデータ) (2022-03-17T02:45:34Z) - End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:10Z) - Generative Adversarial Transformers [13.633811200719627]
本稿では,新規かつ効率的な変換器であるGANsformerを紹介し,視覚生成モデリングの課題について検討する。
ネットワークは、線形効率の計算を維持しながら、画像間の長距離相互作用を可能にする二部構造を用いる。
高速な学習とより良いデータ効率を享受しながら、画像品質と多様性の観点から最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-01T18:54:04Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。