論文の概要: Modality Alignment across Trees on Heterogeneous Hyperbolic Manifolds
- arxiv url: http://arxiv.org/abs/2510.27391v1
- Date: Fri, 31 Oct 2025 11:32:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.084858
- Title: Modality Alignment across Trees on Heterogeneous Hyperbolic Manifolds
- Title(参考訳): 不均一双曲多様体上の木間のモジュラリティアライメント
- Authors: Wu Wei, Xiaomeng Fan, Yuwei Wu, Zhi Gao, Pengxiang Li, Yunde Jia, Mehrtash Harandi,
- Abstract要約: ツリーを横断するアライメントは、画像とテキストのモダリティの両方に対してツリーのような階層的な特徴を構築し、調整する手法である。
本稿では,中間トランスフォーマー層からの視覚的クラストークンにクロスアテンション機構を適用した意味認識型視覚特徴抽出フレームワークを提案する。
- 参考スコア(独自算出の注目度): 49.95082206008502
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modality alignment is critical for vision-language models (VLMs) to effectively integrate information across modalities. However, existing methods extract hierarchical features from text while representing each image with a single feature, leading to asymmetric and suboptimal alignment. To address this, we propose Alignment across Trees, a method that constructs and aligns tree-like hierarchical features for both image and text modalities. Specifically, we introduce a semantic-aware visual feature extraction framework that applies a cross-attention mechanism to visual class tokens from intermediate Transformer layers, guided by textual cues to extract visual features with coarse-to-fine semantics. We then embed the feature trees of the two modalities into hyperbolic manifolds with distinct curvatures to effectively model their hierarchical structures. To align across the heterogeneous hyperbolic manifolds with different curvatures, we formulate a KL distance measure between distributions on heterogeneous manifolds, and learn an intermediate manifold for manifold alignment by minimizing the distance. We prove the existence and uniqueness of the optimal intermediate manifold. Experiments on taxonomic open-set classification tasks across multiple image datasets demonstrate that our method consistently outperforms strong baselines under few-shot and cross-domain settings.
- Abstract(参考訳): モダリティアライメントは視覚言語モデル(VLM)において、モダリティ間の情報を効果的に統合するために重要である。
しかし、既存の手法では、各画像を1つの特徴で表現しながらテキストから階層的特徴を抽出し、非対称的および準最適アライメントをもたらす。
そこで我々は,木を横断するアライメント(Alignment across Trees)を提案する。
具体的には、中間トランスフォーマー層からの視覚クラストークンに対して、粗いセマンティクスで視覚特徴を抽出する意味認識型視覚特徴抽出フレームワークを提案する。
次に、2つのモジュラリティの特徴木を異なる曲率を持つ双曲多様体に埋め込み、それらの階層構造を効果的にモデル化する。
不均一双曲多様体を異なる曲率で整列するために、不均一多様体上の分布間のKL距離測度を定式化し、距離を最小化して多様体アライメントの中間多様体を学ぶ。
最適中間多様体の存在と特異性を証明する。
複数の画像データセットにまたがる分類的オープンセット分類タスクの実験により、我々の手法は、少数のショットとクロスドメイン設定で強いベースラインを一貫して上回ることを示した。
関連論文リスト
- Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers [56.76198904599581]
テキストと画像の拡散モデルは、言語翻訳において優れているため、モーダル間の注意機構を通じて暗黙的に概念を基礎づける。
近年のマルチモーダル拡散トランスフォーマーでは, 共用画像とテキストトークンを導入し, よりリッチでスケーラブルなクロスモーダルアライメントを実現している。
MM-DiTの注意構造を分析するための体系的フレームワークであるSeg4Diffを導入し,テキストから画像への意味情報の伝達方法に着目した。
論文 参考訳(メタデータ) (2025-09-22T17:59:54Z) - HyperPath: Knowledge-Guided Hyperbolic Semantic Hierarchy Modeling for WSI Analysis [21.380034877048644]
双曲空間における意味階層のモデル化を導くために,テキスト記述から知識を統合する新しい手法であるHyperPathを提案する。
本手法は,病理視覚言語基盤モデルから抽出した視覚的特徴とテキスト的特徴を双曲空間に適用する。
提案手法は,WSI解析におけるハイパーボリック埋め込みの可能性を強調し,既存の手法と比較してタスク間での優れた性能を実現する。
論文 参考訳(メタデータ) (2025-06-19T15:30:33Z) - Semantic-Space-Intervened Diffusive Alignment for Visual Classification [11.621655970763467]
クロスモーダルアライメントは視覚的分類を改善する効果的なアプローチである。
本稿では,セマンティック空間間微分アライメント法(SeDA)を提案する。
実験結果から,SeDAはクロスモーダルな特徴アライメントを実現し,既存手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2025-05-09T01:41:23Z) - N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。
画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。
オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-03-16T18:50:44Z) - Contrastive Multi-view Hyperbolic Hierarchical Clustering [33.050054725595736]
対比多視点ハイパーボリック階層クラスタリング(CMHHC)を提案する。
マルチビューアライメント学習、アライメントされた特徴類似学習、連続的な双曲的階層的クラスタリングという3つのコンポーネントで構成されている。
5つの実世界のデータセットに対する実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-05-05T12:56:55Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。