論文の概要: HyperAlign: Hyperbolic Entailment Cones for Adaptive Text-to-Image Alignment Assessment
- arxiv url: http://arxiv.org/abs/2601.04614v1
- Date: Thu, 08 Jan 2026 05:41:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.05567
- Title: HyperAlign: Hyperbolic Entailment Cones for Adaptive Text-to-Image Alignment Assessment
- Title(参考訳): HyperAlign:Adaptive Text-to- Image Alignmentアライメントアセスメントのためのハイパボリックエンターメントコーン
- Authors: Wenzhi Chen, Bo Hu, Leida Li, Lihuo He, Wen Lu, Xinbo Gao,
- Abstract要約: 双曲的エンターメント幾何に基づく適応型テキスト・画像アライメントアライメントアセスメントフレームワークHyperAlignを提案する。
まず、CLIPを用いてユークリッド特徴を抽出し、双曲空間にマッピングする。
第二に、離散エンターメント論理を連続的な幾何学的構造管理に変換する動的スーパービジョンエンターメントモデリング機構を設計する。
第3に,双曲幾何学的特徴を利用してサンプルレベルの変調パラメータを生成する適応変調回帰器を提案する。
- 参考スコア(独自算出の注目度): 84.65251073657883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of text-to-image generation technology, accurately assessing the alignment between generated images and text prompts has become a critical challenge. Existing methods rely on Euclidean space metrics, neglecting the structured nature of semantic alignment, while lacking adaptive capabilities for different samples. To address these limitations, we propose HyperAlign, an adaptive text-to-image alignment assessment framework based on hyperbolic entailment geometry. First, we extract Euclidean features using CLIP and map them to hyperbolic space. Second, we design a dynamic-supervision entailment modeling mechanism that transforms discrete entailment logic into continuous geometric structure supervision. Finally, we propose an adaptive modulation regressor that utilizes hyperbolic geometric features to generate sample-level modulation parameters, adaptively calibrating Euclidean cosine similarity to predict the final score. HyperAlign achieves highly competitive performance on both single database evaluation and cross-database generalization tasks, fully validating the effectiveness of hyperbolic geometric modeling for image-text alignment assessment.
- Abstract(参考訳): テキスト・ツー・イメージ生成技術の急速な発展に伴い、生成した画像とテキスト・プロンプトのアライメントを正確に評価することが重要な課題となっている。
既存の手法はユークリッド空間の測度に依存し、意味的アライメントの構造的性質を無視し、異なるサンプルに対する適応能力を欠いている。
これらの制約に対処するために,双曲的エンターメント幾何に基づく適応型テキスト・画像アライメントアライメントアセスメントフレームワークHyperAlignを提案する。
まず、CLIPを用いてユークリッド特徴を抽出し、双曲空間にマッピングする。
第二に、離散エンターメント論理を連続的な幾何学的構造管理に変換する動的スーパービジョンエンターメントモデリング機構を設計する。
最後に,双曲幾何学的特徴を利用してサンプルレベルの変調パラメータを生成し,ユークリッドのコサイン類似度を適応的に調整し,最終的なスコアを予測する適応変調回帰器を提案する。
HyperAlignは,画像テキストアライメント評価における双曲的幾何モデルの有効性を十分に検証し,単一データベース評価とクロスデータベース一般化タスクの両面で高い競争性能を達成している。
関連論文リスト
- ControlVP: Interactive Geometric Refinement of AI-Generated Images with Consistent Vanishing Points [32.23473666846317]
生成した画像の点不整合を補正するユーザガイドフレームワークである制御VPを提案する。
提案手法は, 構造物の輪郭から導出される構造的ガイダンスを組み込むことにより, 事前学習拡散モデルを拡張する。
本手法は,ベースラインに匹敵する視力を維持しながら,グローバルな幾何整合性を向上させる。
論文 参考訳(メタデータ) (2025-12-08T12:38:11Z) - Dense Semantic Matching with VGGT Prior [49.42199006453071]
本稿では,VGGTの本質的な強みを,初期の特徴段階を再利用し,後続の特徴段階を微調整し,双方向対応のための意味的頭部を追加することによって維持するアプローチを提案する。
提案手法は, 従来のベースラインよりも優れた幾何認識, 整合性, および多様体保存を実現する。
論文 参考訳(メタデータ) (2025-09-25T14:56:11Z) - Geometry-Editable and Appearance-Preserving Object Compositon [67.98806888489385]
汎用オブジェクト合成(GOC)は、対象オブジェクトを望まれる幾何学的性質を持つ背景シーンにシームレスに統合することを目的としている。
近年のアプローチは意味的埋め込みを導出し、それらを高度な拡散モデルに統合し、幾何学的に編集可能な生成を可能にする。
本稿では,まずセマンティックな埋め込みを活用して,所望の幾何学的変換を暗黙的にキャプチャするDistangled Geometry-editable and Outearance-Preserving Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2025-05-27T09:05:28Z) - ShapeShift: Towards Text-to-Shape Arrangement Synthesis with Content-Aware Geometric Constraints [13.2441524021269]
ShapeShiftはテキスト誘導による画像から画像への変換タスクであり、入力された剛体形状の集合を重複しない構成に再構成する必要がある。
重複が発生した場合に,最小限の意味的コヒーレントな調整を施す,コンテンツ対応の衝突解決機構を導入する。
本手法は,空間的関係がテキストのプロンプトをはっきりと具現化した解釈可能な構成を与える。
論文 参考訳(メタデータ) (2025-03-18T20:48:58Z) - DTGBrepGen: A Novel B-rep Generative Model through Decoupling Topology and Geometry [3.859930277034918]
幾何学モデルの境界表現(B-rep)はCADの基本形式である
B-rep生成のための新しいトポロジ・ジオメトリ・デカップリングフレームワークDTGBrepGenを提案する。
論文 参考訳(メタデータ) (2025-03-17T12:34:14Z) - HVT: A Comprehensive Vision Framework for Learning in Non-Euclidean Space [1.1858475445768824]
本稿では、双曲幾何学を統合した視覚変換器(ViT)の新たな拡張である、双曲型視覚変換器(HVT)を紹介する。
従来のViTはユークリッド空間で作用するが、この手法は双曲的距離とM"オビウス変換を活用することにより自己認識機構を強化する。
厳密な数学的定式化を行い、双曲幾何学を注意層、フィードフォワードネットワーク、最適化に組み込む方法を示す。
論文 参考訳(メタデータ) (2024-09-25T13:07:37Z) - From Semantics to Hierarchy: A Hybrid Euclidean-Tangent-Hyperbolic Space Model for Temporal Knowledge Graph Reasoning [1.1372536310854844]
時間的知識グラフ(TKG)推論は、過去のデータに基づいて将来の出来事を予測する。
既存のユークリッドモデルはセマンティクスを捉えるのに優れているが、階層構造に苦しむ。
ユークリッドモデルと双曲モデルの両方の強みを利用する新しいハイブリッド幾何空間アプローチを提案する。
論文 参考訳(メタデータ) (2024-08-30T10:33:08Z) - Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images [56.86175251327466]
本稿では,幾何学的文脈を取り入れつつ,画像から深度や表面正規度などの測地を学習するための新しい手法を提案する。
提案手法は,入力画像に存在する幾何学的変動を符号化した幾何学的文脈を抽出し,幾何的制約と深度推定を相関付ける。
本手法は,画像から高品質な3次元形状を生成可能な密着型フレームワーク内での深度と表面の正規分布推定を統一する。
論文 参考訳(メタデータ) (2024-02-08T17:57:59Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。