論文の概要: A Tilted Seesaw: Revisiting Autoencoder Trade-off for Controllable Diffusion
- arxiv url: http://arxiv.org/abs/2601.21633v1
- Date: Thu, 29 Jan 2026 12:32:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.812387
- Title: A Tilted Seesaw: Revisiting Autoencoder Trade-off for Controllable Diffusion
- Title(参考訳): A Tilted Seesaw: 制御可能な拡散のためのオートエンコーダトレードオフの再検討
- Authors: Pu Cao, Yiyang Ma, Feng Zhou, Xuedan Yin, Qing Song, Lu Yang,
- Abstract要約: 潜時拡散モデルでは、オートエンコーダは通常、忠実な再構成と世代フレンドリーな潜時空間という2つの能力のバランスをとることが期待されている。
近年のImageNet-scale AE研究では、このトレードオフに対処する上で、生成指標に対する体系的なバイアスが観察されている。
我々は、このgFID優位な嗜好がImageNet生成に不適切であるように見える理由を分析するが、スケールが制御可能な拡散に近づくと危険になる。
- 参考スコア(独自算出の注目度): 12.638580946105643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In latent diffusion models, the autoencoder (AE) is typically expected to balance two capabilities: faithful reconstruction and a generation-friendly latent space (e.g., low gFID). In recent ImageNet-scale AE studies, we observe a systematic bias toward generative metrics in handling this trade-off: reconstruction metrics are increasingly under-reported, and ablation-based AE selection often favors the best-gFID configuration even when reconstruction fidelity degrades. We theoretically analyze why this gFID-dominant preference can appear unproblematic for ImageNet generation, yet becomes risky when scaling to controllable diffusion: AEs can induce condition drift, which limits achievable condition alignment. Meanwhile, we find that reconstruction fidelity, especially instance-level measures, better indicates controllability. We empirically validate the impact of tilted autoencoder evaluation on controllability by studying several recent ImageNet AEs. Using a multi-dimensional condition-drift evaluation protocol reflecting controllable generation tasks, we find that gFID is only weakly predictive of condition preservation, whereas reconstruction-oriented metrics are substantially more aligned. ControlNet experiments further confirm that controllability tracks condition preservation rather than gFID. Overall, our results expose a gap between ImageNet-centric AE evaluation and the requirements of scalable controllable diffusion, offering practical guidance for more reliable benchmarking and model selection.
- Abstract(参考訳): 潜時拡散モデルでは、オートエンコーダ(AE)は、忠実な再構成と世代フレンドリーな潜時空間(例えば、低gFID)の2つの能力のバランスをとることが期待される。
近年のImageNet-scale AE研究では,このトレードオフ処理における生成指標に対する体系的バイアスが観察されている。
理論的には、このgFID優位な嗜好がImageNet生成に不適切に見えるが、制御可能な拡散へのスケーリングでは危険になる: AEsは条件ドリフトを誘導し、達成可能な条件アライメントを制限する。
一方、再建の忠実度、特にインスタンスレベルの尺度は、制御可能性を示すのがよい。
我々は、傾斜オートエンコーダの評価が制御性に与える影響を、最近の ImageNet AEs を用いて実証的に検証した。
制御可能な生成タスクを反映した多次元条件ドリフト評価プロトコルを用いることで、gFIDは条件保存の弱さしか予測できないのに対して、再構成指向のメトリクスは実質的に整合性が高いことがわかった。
ControlNetの実験では、制御性はgFIDではなく条件保存を追跡する。
全体としては,ImageNet中心のAE評価とスケーラブルな制御可能な拡散要件のギャップが指摘され,より信頼性の高いベンチマークとモデル選択のための実用的なガイダンスが提供される。
関連論文リスト
- Knowledge-Embedded and Hypernetwork-Guided Few-Shot Substation Meter Defect Image Generation Method [0.0]
変電所メータは電力グリッドの安定運用の監視と確保において重要な役割を担っている。
クラックやその他の物理的欠陥の検出は、しばしば、注釈付きサンプルの深刻な不足によって妨げられる。
本研究では,条件付き知識埋め込みとHypernetwork-Guided Controlを安定拡散パイプラインに統合する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-14T07:21:57Z) - Towards Robust Optical-SAR Object Detection under Missing Modalities: A Dynamic Quality-Aware Fusion Framework [27.71603877164877]
光・合成開口レーダ(SAR)融合による物体検出はリモートセンシングに大きな研究関心を集めている。
本稿では,光SARオブジェクト検出のためのQDFNet(Quality-Aware Dynamic Fusion Network)を提案する。
論文 参考訳(メタデータ) (2025-12-27T03:16:48Z) - Uncertainty-Guided Selective Adaptation Enables Cross-Platform Predictive Fluorescence Microscopy [65.15943255667733]
自動深度選択機能付きサブネットワーク画像翻訳ADDA(SIT-ADDA-Auto)について紹介する。
より深い層を凍結しながら、最も初期の畳み込み層のみを適応させることで、信頼できる転送が得られることを示す。
この結果から,マイクロスコープにおけるラベルなし適応の設計規則とフィールド設定のレシピが提供され,コードが公開されている。
論文 参考訳(メタデータ) (2025-11-15T03:01:05Z) - Noise & pattern: identity-anchored Tikhonov regularization for robust structural anomaly detection [58.535473924035365]
異常検出は自動産業検査において重要な役割を担い、他の均一な視覚パターンの微妙な欠陥や稀な欠陥を識別することを目的としている。
自己教師型オートエンコーダを用いて, 破損した入力の修復を学習する構造的異常検出に取り組む。
構造欠陥を模倣した画像に人工的破壊を注入する汚職モデルを導入する。
論文 参考訳(メタデータ) (2025-11-10T15:48:50Z) - ScaleWeaver: Weaving Efficient Controllable T2I Generation with Multi-Scale Reference Attention [86.93601565563954]
ScaleWeaverは、高度な視覚的自己回帰(VAR)モデルに基づいて、高忠実で制御可能な生成を実現するために設計されたフレームワークである。
提案された参照注意モジュールは image$rightarrow$condition から不要な注意を排除し、計算コストを削減している。
実験によると、ScaleWeaverは、拡散ベースの方法よりも優れた効率を実現しつつ、高品質な生成と正確な制御を提供する。
論文 参考訳(メタデータ) (2025-10-16T17:00:59Z) - Anomaly Detection via Autoencoder Composite Features and NCE [1.2891210250935148]
オートエンコーダ(AE)または生成モデルは、通常入力のデータ分布をモデル化するためにしばしば使用される。
ノイズコントラスト推定(NCE)を訓練したAEと確率モデルの両方が異常検出を行うための非結合型トレーニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-04T01:29:22Z) - Revisiting Deep Feature Reconstruction for Logical and Structural Industrial Anomaly Detection [2.3020018305241337]
産業異常検出は品質管理と予測維持に不可欠である。
既存の手法では、深層学習ネットワークから抽出された画像パッチから複数スケールの特徴を活用することで、デントやスクラッチなどの構造異常を一般的に検出する。
構造異常を検出するためのメモリと計算効率のよいアプローチであるDeep Feature Restruction (DFR) に注目し,これらの制約に対処する。
我々はさらに、DFRをUDSADと呼ばれる統一されたフレームワークに拡張し、構造的および論理的異常の両方を検出する。
論文 参考訳(メタデータ) (2024-10-21T17:56:47Z) - Self-Supervised Masked Convolutional Transformer Block for Anomaly
Detection [122.4894940892536]
本稿では, 自己監督型マスク型畳み込み変圧器ブロック (SSMCTB) について述べる。
本研究では,従来の自己教師型予測畳み込み抑止ブロック(SSPCAB)を3次元マスク付き畳み込み層,チャンネルワイドアテンション用トランスフォーマー,およびハマーロスに基づく新たな自己教師型目標を用いて拡張する。
論文 参考訳(メタデータ) (2022-09-25T04:56:10Z) - Be Your Own Neighborhood: Detecting Adversarial Example by the
Neighborhood Relations Built on Self-Supervised Learning [64.78972193105443]
本稿では,予測に有効な新しいAE検出フレームワークを提案する。
AEの異常な関係と拡張バージョンを区別して検出を行う。
表現を抽出し、ラベルを予測するために、既製の自己監視学習(SSL)モデルが使用される。
論文 参考訳(メタデータ) (2022-08-31T08:18:44Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - On the Robustness of Quality Measures for GANs [136.18799984346248]
本研究は、インセプションスコア(IS)やFr'echet Inception Distance(FID)のような生成モデルの品質測定の堅牢性を評価する。
このような測度は、加算画素摂動によっても操作可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T06:43:09Z) - Interpreting Rate-Distortion of Variational Autoencoder and Using Model
Uncertainty for Anomaly Detection [5.491655566898372]
表現学習による教師なし異常検出のためのスケーラブルな機械学習システムを構築した。
本稿では,情報理論の観点からVAEを再考し,再構成誤差を用いた理論的基礎を提供する。
ベンチマークデータセットに対するアプローチの競合性能を実証的に示す。
論文 参考訳(メタデータ) (2020-05-05T00:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。