論文の概要: Not All Latent Spaces Are Flat: Hyperbolic Concept Control
- arxiv url: http://arxiv.org/abs/2603.14093v1
- Date: Sat, 14 Mar 2026 19:34:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.595002
- Title: Not All Latent Spaces Are Flat: Hyperbolic Concept Control
- Title(参考訳): すべての遅延空間が平らではない:双曲的概念制御
- Authors: Maria Rosaria Briglia, Simone Facchiano, Paolo Cursi, Alessio Sampieri, Emanuele Rodolà, Guido Maria D'Amely di Melendugno, Luca Franco, Fabio Galasso, Iacopo Masi,
- Abstract要約: 我々は,概念のより表現的かつ安定した操作を実現するために,意味的に整合した双曲表現空間を利用する並列輸送に基づく新しい制御機構である双曲制御(HyCon)を導入する。
HyConは4つの安全ベンチマークと4つのT2Iバックボーンで最先端の結果を達成し、ハイパーボリックステアリングはより信頼性の高いT2I生成のための実用的で柔軟なアプローチであることを示した。
- 参考スコア(独自算出の注目度): 24.537693883529908
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As modern text-to-image (T2I) models draw closer to synthesizing highly realistic content, the threat of unsafe content generation grows, and it becomes paramount to exercise control. Existing approaches steer these models by applying Euclidean adjustments to text embeddings, redirecting the generation away from unsafe concepts. In this work, we introduce hyperbolic control (HyCon): a novel control mechanism based on parallel transport that leverages semantically aligned hyperbolic representation space to yield more expressive and stable manipulation of concepts. HyCon reuses off-the-shelf generative models and a state-of-the-art hyperbolic text encoder, linked via a lightweight adapter. HyCon achieves state-of-the-art results across four safety benchmarks and four T2I backbones, showing that hyperbolic steering is a practical and flexible approach for more reliable T2I generation.
- Abstract(参考訳): 現代のテキスト・ツー・イメージ(T2I)モデルは、非常にリアルなコンテンツの合成に近づきつつあるため、安全でないコンテンツ生成の脅威が増大し、運動制御にとって最重要となる。
既存のアプローチは、ユークリッド調整をテキスト埋め込みに適用し、安全でない概念から生成をリダイレクトすることで、これらのモデルを操縦する。
本稿では, 概念のより表現的で安定した操作を実現するために, 意味的に整合した双曲表現空間を活用する並列輸送に基づく新しい制御機構である, 双曲制御(HyCon)を導入する。
HyConは、既製の生成モデルと、軽量アダプタを介してリンクされた最先端のハイパーボリックテキストエンコーダを再利用する。
HyConは4つの安全ベンチマークと4つのT2Iバックボーンで最先端の結果を達成し、ハイパーボリックステアリングはより信頼性の高いT2I生成のための実用的で柔軟なアプローチであることを示した。
関連論文リスト
- Conditioned Activation Transport for T2I Safety Steering [52.88378793535683]
Conditioned Activation Transport (CAT) は、幾何学に基づく条件付け機構と非線形輸送マップを利用するフレームワークである。
Z-Image と Infinity の2つの最先端アーキテクチャに対するアプローチを検証する。
論文 参考訳(メタデータ) (2026-03-03T17:10:45Z) - From "What" to "How": Constrained Reasoning for Autoregressive Image Generation [26.716018030404665]
CoR-PainterはConstrained Reasoningを導入することで、"How-to-What"パラダイムを開拓する新しいフレームワークである。
まず、入力プロンプトから一連の視覚的制約を導出することで、"ハウ・トゥ・ドロー"を導出する。
これらの制約は、構造的に健全でコヒーレントな基礎を提供し、正確な視覚合成を行うための詳細な記述"What to draw"の生成を後回しにしている。
論文 参考訳(メタデータ) (2026-03-03T08:03:18Z) - HyperAlign: Hyperbolic Entailment Cones for Adaptive Text-to-Image Alignment Assessment [84.65251073657883]
双曲的エンターメント幾何に基づく適応型テキスト・画像アライメントアライメントアセスメントフレームワークHyperAlignを提案する。
まず、CLIPを用いてユークリッド特徴を抽出し、双曲空間にマッピングする。
第二に、離散エンターメント論理を連続的な幾何学的構造管理に変換する動的スーパービジョンエンターメントモデリング機構を設計する。
第3に,双曲幾何学的特徴を利用してサンプルレベルの変調パラメータを生成する適応変調回帰器を提案する。
論文 参考訳(メタデータ) (2026-01-08T05:41:06Z) - Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing [62.94394079771687]
急成長する傾向は、表現エンコーダの高次元特徴を生成的潜伏剤として採用することである。
生成タスクに理解指向のエンコーダ機能を適用するための体系的フレームワークを提案する。
提案手法は,テキスト・トゥ・イメージ(T2I)と画像編集タスクにおいて,最先端の再構築,収束の高速化,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2025-12-19T18:59:57Z) - CGCE: Classifier-Guided Concept Erasure in Generative Models [53.7410000675294]
概念消去は、事前訓練されたモデルから望ましくない概念を取り除くために開発された。
既存の方法は、削除されたコンテンツを再生できる敵攻撃に弱いままである。
多様な生成モデルに対して堅牢な概念消去を提供する効率的なプラグアンドプレイフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-08T05:38:18Z) - IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction [77.06211178777939]
IAR2は、階層的なセマンティックディーテール合成プロセスを可能にする高度な自己回帰フレームワークである。
我々は、IAR2が自動回帰画像生成のための新しい最先端技術を設定し、ImageNet上で1.50のFIDを達成することを示す。
論文 参考訳(メタデータ) (2025-10-08T12:08:21Z) - Dual Recursive Feedback on Generation and Appearance Latents for Pose-Robust Text-to-Image Diffusion [15.384896404310645]
制御可能なT2Iモデルにおける制御条件を適切に反映する訓練不要なDual Recursive Feedback(DRF)システムを提案する。
提案手法は高品質でセマンティック・コヒーレントで構造的に一貫した画像を生成する。
論文 参考訳(メタデータ) (2025-08-13T07:46:00Z) - GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。
近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。
我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:09:12Z) - TIGeR: Text-Instructed Generation and Refinement for Template-Free Hand-Object Interaction [43.61297194416115]
本稿では,物体形状の精細化とポーズ推定を行うためのTIGeR(Text-Instructed Generation and Refinement)フレームワークを提案する。
テキストで指示された事前生成と視覚誘導による洗練という2段階のフレームワークを使用します。
TIGeRは、広く使用されているDex-YCBおよびObmanデータセット上でのChamfer距離、すなわち1.979および5.468オブジェクトの競合性能を達成する。
論文 参考訳(メタデータ) (2025-06-01T10:56:16Z) - Plug-and-Play Interpretable Responsible Text-to-Image Generation via Dual-Space Multi-facet Concept Control [28.030708956348864]
スケーラブルなT2I生成を実現するためのユニークな手法を提案する。
鍵となるアイデアは、ターゲットのT2Iパイプラインを、所望のコンセプトに対して解釈可能な複合責任空間を学習する外部プラグアンドプレイ機構で蒸留することである。
推論では、学習空間を利用して生成内容を変調する。
論文 参考訳(メタデータ) (2025-03-24T04:06:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。