論文の概要: AtteConDA: Attention-Based Conflict Suppression in Multi-Condition Diffusion Models and Synthetic Data Augmentation
- arxiv url: http://arxiv.org/abs/2605.09425v1
- Date: Sun, 10 May 2026 08:56:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.244559
- Title: AtteConDA: Attention-Based Conflict Suppression in Multi-Condition Diffusion Models and Synthetic Data Augmentation
- Title(参考訳): AtteConDA:マルチコンディション拡散モデルにおける注意に基づく衝突抑制と合成データ拡張
- Authors: Shogo Noguchi,
- Abstract要約: 本研究は,マルチ条件生成における条件競合に対処して画像生成研究に寄与する。
これは、ハイレベルな自動運転タスクにおけるデータの不足を軽減するための重要なステップを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent conditional image generation methods can improve controllability by generating images that are faithful to conditions such as sketches, human poses, segmentation maps, and depth. By applying these techniques to image augmentation while preserving annotations, generated images can be used as additional training data and can improve recognition performance. However, for high-level driving tasks such as traffic-rule extraction and driving-behavior understanding, simply using annotations as conditions is insufficient. Instead, images must be augmented while preserving the detailed high-level structure of the original scene. One possible solution is to use multiple conditions so that generated images retain diverse structural cues after generation. However, when multiple conditions are used, conflicts among conditions can prevent reliable structure preservation. In this work, we input semantic segmentation, depth, and edges extracted from the original image into a multi-condition image generation model, thereby providing rich structural information as conditions. We further propose a modeling approach for handling conflicts among multiple conditions and show that it enables image generation with stronger structural preservation. We also build a generation framework and evaluation protocol for driving tasks, establishing a basis for comparison with prior and future models. As a result, this work contributes to image generation research by addressing condition conflicts in multi-condition generation and provides an important step toward mitigating data scarcity in high-level autonomous-driving tasks.
- Abstract(参考訳): 近年の条件付き画像生成手法は,スケッチや人間のポーズ,セグメンテーションマップ,深度といった条件に忠実な画像を生成することにより,制御性を向上させることができる。
アノテーションを保存しながら画像拡張にこれらの技術を適用することで、生成された画像を追加のトレーニングデータとして使用することができ、認識性能を向上させることができる。
しかし、交通ルール抽出や運転行動理解のような高レベルの運転タスクでは、単にアノテーションを条件として使うだけでは不十分である。
代わりに、画像は元のシーンの詳細な高レベルな構造を維持しながら拡張されなければならない。
可能な解決策の1つは、生成した画像が生成後に様々な構造的手がかりを保持するために複数の条件を使用することである。
しかし、複数の条件を使用する場合、条件間の衝突により信頼性の高い構造保存が防止される。
本研究では,原画像から抽出したセマンティックセグメンテーション,深さ,エッジを多条件画像生成モデルに入力し,リッチな構造情報を条件として提供する。
さらに,複数条件間の衝突をモデル化する手法を提案し,構造保存性を高めた画像生成を可能にすることを示す。
また、タスクを駆動するための生成フレームワークと評価プロトコルを構築し、前と将来のモデルと比較するための基盤を確立する。
その結果,マルチコンディション生成における条件競合に対処して画像生成研究に寄与し,高レベルの自動運転タスクにおけるデータ不足を軽減するための重要なステップを提供する。
関連論文リスト
- BLIP3o-NEXT: Next Frontier of Native Image Generation [113.25832679864631]
本稿では,ネイティブ画像生成の次のフロンティアであるBLIP3シリーズにおいて,完全にオープンな基盤モデルBLIP3oを提案する。
BLIP3oは単一のアーキテクチャで画像生成と画像編集を統一し、強力な画像生成と画像編集機能を示す。
論文 参考訳(メタデータ) (2025-10-17T17:50:58Z) - Conditional Panoramic Image Generation via Masked Autoregressive Modeling [35.624070746282186]
本稿では,これらの課題に対処するために,マスク付き自己回帰モデルを活用した統合フレームワークパノラマ自動回帰モデル(PAR)を提案する。
既存の生成モデルに固有の不連続性に対処するため,空間コヒーレンスを高めるために円パディングを導入する。
実験では、テキスト・ツー・イメージ生成とパノラマ・アパインティング・タスクの競争性能を示す。
論文 参考訳(メタデータ) (2025-05-22T16:20:12Z) - Context-Aware Autoregressive Models for Multi-Conditional Image Generation [24.967166342680112]
ContextARは、多条件画像生成のための柔軟で効果的なフレームワークである。
様々な条件をトークンシーケンスに直接埋め込み、モダリティ固有の意味論を保存する。
拡散型多条件制御よりも競争力が高いことが,既存の自己回帰ベースラインに近づくことを示す。
論文 参考訳(メタデータ) (2025-05-18T07:27:02Z) - Adapting Diffusion Models for Improved Prompt Compliance and Controllable Image Synthesis [43.481539150288434]
この作品は新しい家族を紹介します。
因子グラフ拡散モデル(FG-DM)
FG-DMは結合分布をモデル化する。
イメージやコンディショニング変数、例えばセマンティック、スケッチなどです。
因子グラフ分解による 奥行きや正常な地図です
論文 参考訳(メタデータ) (2024-10-29T00:54:00Z) - A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。