論文の概要: CDG-MAE: Learning Correspondences from Diffusion Generated Views
- arxiv url: http://arxiv.org/abs/2506.18164v1
- Date: Sun, 22 Jun 2025 20:40:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.784813
- Title: CDG-MAE: Learning Correspondences from Diffusion Generated Views
- Title(参考訳): CDG-MAE:拡散生成ビューからの対応学習
- Authors: Varun Belagali, Pierre Marza, Srikar Yellapragada, Zilinghan Li, Tarak Nath Nandi, Ravi K Madduri, Joel Saltz, Stergios Christodoulidis, Maria Vakalopoulou, Dimitris Samaras,
- Abstract要約: CDG-MAEは、静的画像から生成される多様な合成ビューを利用する、新しいMAEベースの自己教師方式である。
これらの生成されたビューは、ポーズとパースペクティブに大きな変化を示し、リッチなトレーニング信号を提供する。
- 参考スコア(独自算出の注目度): 19.24402848656637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning dense correspondences, critical for application such as video label propagation, is hindered by tedious and unscalable manual annotation. Self-supervised methods address this by using a cross-view pretext task, often modeled with a masked autoencoder, where a masked target view is reconstructed from an anchor view. However, acquiring effective training data remains a challenge - collecting diverse video datasets is difficult and costly, while simple image crops lack necessary pose variations. This paper introduces CDG-MAE, a novel MAE-based self-supervised method that uses diverse synthetic views generated from static images via an image-conditioned diffusion model. These generated views exhibit substantial changes in pose and perspective, providing a rich training signal that overcomes the limitations of video and crop-based anchors. We present a quantitative method to evaluate local and global consistency of generated images, discussing their use for cross-view self-supervised pretraining. Furthermore, we enhance the standard single-anchor MAE setting to a multi-anchor strategy to effectively modulate the difficulty of pretext task. CDG-MAE significantly outperforms state-of-the-art MAE methods reliant only on images and substantially narrows the performance gap to video-based approaches.
- Abstract(参考訳): ビデオラベルの伝搬などの応用に欠かせない密接な対応を学習することは、退屈で計算不能な手動アノテーションによって妨げられる。
自己監督的手法は、しばしばマスク付きオートエンコーダでモデル化されるクロスビューのプリテキストタスクを使用してこの問題に対処し、アンカービューからマスク付きターゲットビューを再構築する。
しかし、効果的なトレーニングデータを取得することは依然として困難であり、多様なビデオデータセットの収集は困難でコストがかかる。
本稿では,画像条件付き拡散モデルを用いて静的画像から生成される多様な合成ビューを利用する,新しいMAEに基づく自己教師方式CDG-MAEを紹介する。
これらの生成されたビューは、ポーズと視点に大きな変化を示し、ビデオや作物ベースのアンカーの制限を克服する豊富なトレーニング信号を提供する。
本稿では,生成画像の局所的および大域的一貫性を評価するための定量的手法を提案する。
さらに、プリテキストタスクの難易度を効果的に調整するために、標準のシングルアンカーMAE設定をマルチアンカー戦略に拡張する。
CDG-MAEは、画像のみに依存した最先端のMAE法を著しく上回り、ビデオベースのアプローチによるパフォーマンスギャップを大幅に狭めている。
関連論文リスト
- EIDT-V: Exploiting Intersections in Diffusion Trajectories for Model-Agnostic, Zero-Shot, Training-Free Text-to-Video Generation [26.888320234592978]
ゼロショット、トレーニングなし、画像ベースのテキスト・ツー・ビデオ生成は、既存の画像ベースの拡散モデルを用いてビデオを生成することを目的とした新興分野である。
拡散軌道の交叉を用いて,潜在値のみを扱うモデルに依存しない手法を提案する。
文脈内で訓練されたLLMはコヒーレントなフレームワイドプロンプトを生成するために使用され、もう1つはフレーム間の差異を特定するために使用される。
提案手法は,多様な画像生成モデルを扱う場合,より柔軟でありながら,最先端の性能が向上する。
論文 参考訳(メタデータ) (2025-04-09T13:11:09Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - Modification Takes Courage: Seamless Image Stitching via Reference-Driven Inpainting [0.1696421797495086]
現在の画像縫合法は、不均一な色相や大きな視差のような挑戦的なシナリオにおいて顕著な縫い目を生み出す。
本稿では, 画像の融合と整形を基準ベースインペイントモデルとして再構成する参照駆動型インペイント・スティッチャ (RDIStitcher) を提案する。
本稿では,Multimodal Large Language Models (MLLM) を用いた画像品質評価手法を提案する。
論文 参考訳(メタデータ) (2024-11-15T16:05:01Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を効率的に回避するために、連続的に評価された画像トークンを取り入れている。
また,数値安定性問題に対処する理論的に実証された手法と,タスク目標の生成と理解のバランスをとるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Diffusion Model-Based Image Editing: A Survey [46.244266782108234]
様々な画像生成や編集作業のための強力なツールとして,拡散モデルが登場している。
本稿では,画像編集のための拡散モデルを用いた既存手法の概要について述べる。
テキスト誘導画像編集アルゴリズムの性能を更に評価するために,系統的なベンチマークであるEditEvalを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:07:09Z) - Cross-Scale MAE: A Tale of Multi-Scale Exploitation in Remote Sensing [5.325585142755542]
我々は,Masked Auto-Encoder (MAE)をベースとした自己教師型モデルであるCross-Scale MAEを提案する。
実験により,Cross-Scale MAEは標準的なMAEと他の最先端のリモートセンシングMAE法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-01-29T03:06:19Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。