論文の概要: Not All Thats Rare Is Lost: Causal Paths to Rare Concept Synthesis
- arxiv url: http://arxiv.org/abs/2505.20808v1
- Date: Tue, 27 May 2025 07:13:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.464847
- Title: Not All Thats Rare Is Lost: Causal Paths to Rare Concept Synthesis
- Title(参考訳): コンセプト・シンセサイザーを作るための道のり
- Authors: Bo-Kai Ruan, Zi-Xiang Ni, Bo-Lun Huang, Teng-Fang Hsiao, Hong-Han Shuai,
- Abstract要約: 我々は、まれな概念生成を潜在因果経路をナビゲートするものとして扱う、原則化されたフレームワークであるRAPを紹介する。
RAPは希少な概念生成を一貫して強化し、自動評価と人間の研究の両方において、強力なベースラインを上回ります。
- 参考スコア(独自算出の注目度): 17.226110719469258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have shown strong capabilities in high-fidelity image generation but often falter when synthesizing rare concepts, i.e., prompts that are infrequently observed in the training distribution. In this paper, we introduce RAP, a principled framework that treats rare concept generation as navigating a latent causal path: a progressive, model-aligned trajectory through the generative space from frequent concepts to rare targets. Rather than relying on heuristic prompt alternation, we theoretically justify that rare prompt guidance can be approximated by semantically related frequent prompts. We then formulate prompt switching as a dynamic process based on score similarity, enabling adaptive stage transitions. Furthermore, we reinterpret prompt alternation as a second-order denoising mechanism, promoting smooth semantic progression and coherent visual synthesis. Through this causal lens, we align input scheduling with the model's internal generative dynamics. Experiments across diverse diffusion backbones demonstrate that RAP consistently enhances rare concept generation, outperforming strong baselines in both automated evaluations and human studies.
- Abstract(参考訳): 拡散モデルは高忠実度画像生成において強い能力を示すが、希少な概念、すなわちトレーニング分布でしばしば観測されるプロンプトを合成する際には、しばしばフェールする。
本稿では,稀な概念生成を潜在因果経路のナビゲートとして扱う原則的枠組みであるRAPを紹介する。
我々は、ヒューリスティックなプロンプト変更に頼るのではなく、稀なプロンプトガイダンスが意味的に関連する頻繁なプロンプトによって近似できることを理論的に正当化する。
次に、スコア類似性に基づく動的プロセスとしてプロンプトスイッチングを定式化し、適応的なステージ遷移を可能にする。
さらに, アクセシブ・リフレクションを2次認知機構として再解釈し, スムーズなセマンティック・プログレクションとコヒーレント・ビジュアル・シンセシスを促進する。
この因果レンズを通して、入力スケジューリングとモデルの内部生成ダイナミクスを一致させる。
多様な拡散バックボーンを用いた実験では、RAPは希少な概念生成を一貫して促進し、自動評価と人的研究の両方において強いベースラインを上回ります。
関連論文リスト
- Dynamical Diffusion: Learning Temporal Dynamics with Diffusion Models [71.63194926457119]
動的拡散(DyDiff, Dynamical Diffusion)は, 時間的に意識された前と逆のプロセスを含む理論的に健全なフレームワークである。
科学的時間的予測、ビデオ予測、時系列予測に関する実験は、動的拡散が時間的予測タスクのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-03-02T16:10:32Z) - GAS: Generative Avatar Synthesis from a Single Image [54.95198111659466]
一つの画像からビュー一貫性と時間的コヒーレントなアバターを合成するための、一般化可能で統一されたフレームワークを導入する。
提案手法は, 回帰に基づく3次元再構成と拡散モデルの生成能力を組み合わせることで, このギャップを埋めるものである。
論文 参考訳(メタデータ) (2025-02-10T19:00:39Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Parallelly Tempered Generative Adversarial Networks [7.94957965474334]
生成的敵対ネットワーク(GAN)は、生成的人工知能(AI)における代表的バックボーンモデルである。
本研究は,モード崩壊の存在下でのトレーニングの不安定性と非効率性を,対象分布におけるマルチモーダルにリンクすることで解析する。
新たに開発したGAN目標関数により, 生成元は同時に全ての誘電分布を学習することができる。
論文 参考訳(メタデータ) (2024-11-18T18:01:13Z) - Diffusing States and Matching Scores: A New Framework for Imitation Learning [16.941612670582522]
敵対的模倣学習は伝統的に、学習者と敵対的に選択されたコスト関数の間の2つのプレイヤーゼロサムゲームとしてフレーム化されている。
拡散モデルは、回帰を通じてスコア関数を訓練することだけを必要とするGANの非敵対的な代替品として登場した。
提案手法は, GANスタイルの模倣学習ベースラインと差別化なし模倣学習ベースラインの両方を, 連続制御問題に比較して優れていることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:25Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Exploring Compositional Visual Generation with Latent Classifier
Guidance [19.48538300223431]
我々は、潜在表現生成の非線形ナビゲーションを容易にするために、潜時拡散モデルと補助潜時分類器を訓練する。
潜在分類器ガイダンスにより達成された条件付き生成は、トレーニング中の条件付きログ確率の低い境界を確実に最大化することを示す。
遅延分類器誘導に基づくこのパラダイムは、事前学習された生成モデルに非依存であり、実画像と合成画像の逐次的操作と画像生成の両面での競合結果を示す。
論文 参考訳(メタデータ) (2023-04-25T03:02:58Z) - Evade the Trap of Mediocrity: Promoting Diversity and Novelty in Text
Generation via Concentrating Attention [85.5379146125199]
強力なトランスフォーマーアーキテクチャは高品質な文を生成するのに優れていることが証明されている。
本研究では,Transformerにおけるスペーサーの注意値が多様性を向上させることを発見した。
注意分布のシャープさを制御するために,新しい注意正規化損失を導入する。
論文 参考訳(メタデータ) (2022-11-14T07:53:16Z) - Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。
適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。
その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文 参考訳(メタデータ) (2021-01-15T10:23:12Z) - A reinforcement learning approach to rare trajectory sampling [0.0]
非定型事象を効率的にサンプリングするダイナミクスを適応的に構築する一般的な手法を提案する。
我々は、最適な振る舞いを見つけることを目的とした機械学習手法のセットを指す強化学習(RL)の手法を利用する。
ここでは、連続時間マルコフ系、第一通過時間問題、非マルコフ力学などのアイデアの自然な拡張について論じる。
論文 参考訳(メタデータ) (2020-05-26T17:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。