論文の概要: Not All Thats Rare Is Lost: Causal Paths to Rare Concept Synthesis
- arxiv url: http://arxiv.org/abs/2505.20808v1
- Date: Tue, 27 May 2025 07:13:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.464847
- Title: Not All Thats Rare Is Lost: Causal Paths to Rare Concept Synthesis
- Title(参考訳): コンセプト・シンセサイザーを作るための道のり
- Authors: Bo-Kai Ruan, Zi-Xiang Ni, Bo-Lun Huang, Teng-Fang Hsiao, Hong-Han Shuai,
- Abstract要約: 我々は、まれな概念生成を潜在因果経路をナビゲートするものとして扱う、原則化されたフレームワークであるRAPを紹介する。
RAPは希少な概念生成を一貫して強化し、自動評価と人間の研究の両方において、強力なベースラインを上回ります。
- 参考スコア(独自算出の注目度): 17.226110719469258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have shown strong capabilities in high-fidelity image generation but often falter when synthesizing rare concepts, i.e., prompts that are infrequently observed in the training distribution. In this paper, we introduce RAP, a principled framework that treats rare concept generation as navigating a latent causal path: a progressive, model-aligned trajectory through the generative space from frequent concepts to rare targets. Rather than relying on heuristic prompt alternation, we theoretically justify that rare prompt guidance can be approximated by semantically related frequent prompts. We then formulate prompt switching as a dynamic process based on score similarity, enabling adaptive stage transitions. Furthermore, we reinterpret prompt alternation as a second-order denoising mechanism, promoting smooth semantic progression and coherent visual synthesis. Through this causal lens, we align input scheduling with the model's internal generative dynamics. Experiments across diverse diffusion backbones demonstrate that RAP consistently enhances rare concept generation, outperforming strong baselines in both automated evaluations and human studies.
- Abstract(参考訳): 拡散モデルは高忠実度画像生成において強い能力を示すが、希少な概念、すなわちトレーニング分布でしばしば観測されるプロンプトを合成する際には、しばしばフェールする。
本稿では,稀な概念生成を潜在因果経路のナビゲートとして扱う原則的枠組みであるRAPを紹介する。
我々は、ヒューリスティックなプロンプト変更に頼るのではなく、稀なプロンプトガイダンスが意味的に関連する頻繁なプロンプトによって近似できることを理論的に正当化する。
次に、スコア類似性に基づく動的プロセスとしてプロンプトスイッチングを定式化し、適応的なステージ遷移を可能にする。
さらに, アクセシブ・リフレクションを2次認知機構として再解釈し, スムーズなセマンティック・プログレクションとコヒーレント・ビジュアル・シンセシスを促進する。
この因果レンズを通して、入力スケジューリングとモデルの内部生成ダイナミクスを一致させる。
多様な拡散バックボーンを用いた実験では、RAPは希少な概念生成を一貫して促進し、自動評価と人的研究の両方において強いベースラインを上回ります。
関連論文リスト
- RAAG: Ratio Aware Adaptive Guidance [9.525432706814675]
フローベースの生成モデルは驚くべき進歩を遂げた。
推論全体を通じて強力な、固定されたガイダンススケールを適用することは、現代的なアプリケーションに必要な、迅速な、数ステップのサンプリングには適していない。
本稿では,進化率に基づいて早期段階の指導尺度を自動的に減衰させる,シンプルな,理論的に基礎付けられた適応型指導スケジュールを提案する。
論文 参考訳(メタデータ) (2025-08-05T13:41:05Z) - Can We Achieve Efficient Diffusion without Self-Attention? Distilling Self-Attention into Convolutions [94.21989689001848]
従来の自己アテンションモジュールをピラミッド畳み込みブロック((Delta)ConvBlocks)に置き換えるための(Delta)ConvFusionを提案する。
ローカライズされた畳み込み操作に注意パターンを蒸留し、他のコンポーネントを凍結させながら、(Delta)ConvFusionは、トランスフォーマーベースの処理に匹敵する性能を達成し、計算コストを6929$times$、LinFusionを5.42$times$の効率で上回る。
論文 参考訳(メタデータ) (2025-04-30T03:57:28Z) - Dynamical Diffusion: Learning Temporal Dynamics with Diffusion Models [71.63194926457119]
動的拡散(DyDiff, Dynamical Diffusion)は, 時間的に意識された前と逆のプロセスを含む理論的に健全なフレームワークである。
科学的時間的予測、ビデオ予測、時系列予測に関する実験は、動的拡散が時間的予測タスクのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-03-02T16:10:32Z) - GAS: Generative Avatar Synthesis from a Single Image [54.95198111659466]
一つの画像からビュー一貫性と時間的コヒーレントなアバターを合成するための、一般化可能で統一されたフレームワークを導入する。
提案手法は, 回帰に基づく3次元再構成と拡散モデルの生成能力を組み合わせることで, このギャップを埋めるものである。
論文 参考訳(メタデータ) (2025-02-10T19:00:39Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Parallelly Tempered Generative Adversarial Networks [7.94957965474334]
生成的敵対ネットワーク(GAN)は、生成的人工知能(AI)における代表的バックボーンモデルである。
本研究は,モード崩壊の存在下でのトレーニングの不安定性と非効率性を,対象分布におけるマルチモーダルにリンクすることで解析する。
新たに開発したGAN目標関数により, 生成元は同時に全ての誘電分布を学習することができる。
論文 参考訳(メタデータ) (2024-11-18T18:01:13Z) - Diffusing States and Matching Scores: A New Framework for Imitation Learning [16.941612670582522]
敵対的模倣学習は伝統的に、学習者と敵対的に選択されたコスト関数の間の2つのプレイヤーゼロサムゲームとしてフレーム化されている。
拡散モデルは、回帰を通じてスコア関数を訓練することだけを必要とするGANの非敵対的な代替品として登場した。
提案手法は, GANスタイルの模倣学習ベースラインと差別化なし模倣学習ベースラインの両方を, 連続制御問題に比較して優れていることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:25Z) - Enhancing Anomaly Detection Generalization through Knowledge Exposure: The Dual Effects of Augmentation [9.740752855568202]
異常検出では、標準から逸脱し、頻繁に発生するデータセット内のインスタンスを識別する。
現在のベンチマークでは、実際のシナリオと一致しない通常のデータの多様性の低い方法を好む傾向にある。
本稿では,概念力学の理解に外部知識を統合した新しいテストプロトコルと知識公開(KE)手法を提案する。
論文 参考訳(メタデータ) (2024-06-15T12:37:36Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Exploring Compositional Visual Generation with Latent Classifier
Guidance [19.48538300223431]
我々は、潜在表現生成の非線形ナビゲーションを容易にするために、潜時拡散モデルと補助潜時分類器を訓練する。
潜在分類器ガイダンスにより達成された条件付き生成は、トレーニング中の条件付きログ確率の低い境界を確実に最大化することを示す。
遅延分類器誘導に基づくこのパラダイムは、事前学習された生成モデルに非依存であり、実画像と合成画像の逐次的操作と画像生成の両面での競合結果を示す。
論文 参考訳(メタデータ) (2023-04-25T03:02:58Z) - DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly Detection [80.20339155618612]
DiffusionADは、再構成サブネットワークとセグメンテーションサブネットワークからなる、新しい異常検出パイプラインである。
高速なワンステップデノゲーションパラダイムは、同等の再現品質を維持しながら、数百倍の加速を達成する。
異常の出現の多様性を考慮し、複数のノイズスケールの利点を統合するためのノルム誘導パラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T16:14:06Z) - Evade the Trap of Mediocrity: Promoting Diversity and Novelty in Text
Generation via Concentrating Attention [85.5379146125199]
強力なトランスフォーマーアーキテクチャは高品質な文を生成するのに優れていることが証明されている。
本研究では,Transformerにおけるスペーサーの注意値が多様性を向上させることを発見した。
注意分布のシャープさを制御するために,新しい注意正規化損失を導入する。
論文 参考訳(メタデータ) (2022-11-14T07:53:16Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - The Transitive Information Theory and its Application to Deep Generative
Models [0.0]
変分オートエンコーダ(VAE)は2つの反対方向に押される。
既存の方法では、圧縮と再構成の間のレート歪みのトレードオフに問題を絞り込む。
一般化のために学習した表現を再結合する機構とともに,非交叉表現の階層構造を学習するシステムを開発する。
論文 参考訳(メタデータ) (2022-03-09T22:35:02Z) - Causally-motivated Shortcut Removal Using Auxiliary Labels [63.686580185674195]
このようなリスク不変予測器の学習に重要な課題はショートカット学習である。
この課題に対処するために、フレキシブルで因果的なアプローチを提案する。
この因果的動機付けされた正規化スキームが堅牢な予測子を生み出すことを理論的および実証的に示す。
論文 参考訳(メタデータ) (2021-05-13T16:58:45Z) - Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。
適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。
その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文 参考訳(メタデータ) (2021-01-15T10:23:12Z) - Effective Distant Supervision for Temporal Relation Extraction [49.20329405920023]
新しい領域における時間的関係抽出モデルを訓練するための主要な障壁は、多様で高品質な例がないことである。
本稿では,時間関係の遠隔管理例を自動的に収集する手法を提案する。
論文 参考訳(メタデータ) (2020-10-24T03:17:31Z) - A reinforcement learning approach to rare trajectory sampling [0.0]
非定型事象を効率的にサンプリングするダイナミクスを適応的に構築する一般的な手法を提案する。
我々は、最適な振る舞いを見つけることを目的とした機械学習手法のセットを指す強化学習(RL)の手法を利用する。
ここでは、連続時間マルコフ系、第一通過時間問題、非マルコフ力学などのアイデアの自然な拡張について論じる。
論文 参考訳(メタデータ) (2020-05-26T17:29:01Z) - Temporal Sparse Adversarial Attack on Sequence-based Gait Recognition [56.844587127848854]
このような攻撃に対して,最先端の歩行認識モデルが脆弱であることを示す。
生成した対向ネットワークに基づくアーキテクチャを用いて、対向的な高品質な歩行シルエットやビデオフレームを意味的に生成する。
実験結果から, フレームの1分の1しか攻撃されない場合, 対象モデルの精度は劇的に低下することがわかった。
論文 参考訳(メタデータ) (2020-02-22T10:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。