論文の概要: PHyCLIP: $\ell_1$-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning
- arxiv url: http://arxiv.org/abs/2510.08919v1
- Date: Fri, 10 Oct 2025 02:02:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.000732
- Title: PHyCLIP: $\ell_1$-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning
- Title(参考訳): PHyCLIP:$\ell_1$-Product of Hyperbolic Factors Unified Hierarchy and compositionality in Vision-Language Representation Learning (特集:情報ネットワーク)
- Authors: Daiki Yoshikawa, Takashi Matsubara,
- Abstract要約: 視覚言語モデルにおける階層構造と構成性をキャプチャするPHyCLIPを提案する。
PHyCLIPは、既存の単一空間アプローチよりも優れており、埋め込み空間においてより解釈可能な構造を提供する。
- 参考スコア(独自算出の注目度): 13.063093054280946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models have achieved remarkable success in multi-modal representation learning from large-scale pairs of visual scenes and linguistic descriptions. However, they still struggle to simultaneously express two distinct types of semantic structures: the hierarchy within a concept family (e.g., dog $\preceq$ mammal $\preceq$ animal) and the compositionality across different concept families (e.g., "a dog in a car" $\preceq$ dog, car). Recent works have addressed this challenge by employing hyperbolic space, which efficiently captures tree-like hierarchy, yet its suitability for representing compositionality remains unclear. To resolve this dilemma, we propose PHyCLIP, which employs an $\ell_1$-Product metric on a Cartesian product of Hyperbolic factors. With our design, intra-family hierarchies emerge within individual hyperbolic factors, and cross-family composition is captured by the $\ell_1$-product metric, analogous to a Boolean algebra. Experiments on zero-shot classification, retrieval, hierarchical classification, and compositional understanding tasks demonstrate that PHyCLIP outperforms existing single-space approaches and offers more interpretable structures in the embedding space.
- Abstract(参考訳): 視覚言語モデルは、大規模な視覚シーンと言語記述のペアからマルチモーダル表現学習において顕著な成功を収めた。
概念ファミリー内の階層構造(例:dog $\preceq$ mammal $\preceq$ animal)と、異なる概念ファミリー(例:「車の中で犬」$\preceq$dog, car)である。
近年の研究では、木のような階層を効率的にキャプチャする双曲空間を用いることでこの問題に対処しているが、構成性を表現するための適合性はまだ不明である。
このジレンマを解決するために、ハイドロボリック因子のカルテシアン積に$\ell_1$-Productメートル法を用いるPHyCLIPを提案する。
我々の設計により、家族内階層は個々の双曲因子の中に出現し、ブリアン代数に類似した$\ell_1$-productの計量によって、クロスファミリー合成が取得される。
ゼロショット分類、検索、階層分類、構成理解タスクの実験は、PHyCLIPが既存の単一空間アプローチより優れ、埋め込み空間においてより解釈可能な構造を提供することを示す。
関連論文リスト
- Hierarchical Representation Matching for CLIP-based Class-Incremental Learning [80.2317078787969]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、進化するデータストリームに継続的に適応可能なモデルを提供することを目的とする。
事前訓練された視覚言語モデル(例えばCLIP)の最近の進歩は、このタスクの強力な基盤を提供する。
本稿では,CLIPベースのCILのためのHiErarchical Representation MAtchiNg(HERMAN)を紹介する。
論文 参考訳(メタデータ) (2025-09-26T17:59:51Z) - Hierarchical Mamba Meets Hyperbolic Geometry: A New Paradigm for Structured Language Embeddings [1.4183971140167244]
階層型マンバ (HiM) を用いて階層型言語埋め込みを学習する。
HiMは効率的なMamba2と指数関数的な成長と双曲幾何学の曲線の性質を統合している。
両モデルが4つの存在論的データセットの階層的関係を効果的に捉えていることを示す。
論文 参考訳(メタデータ) (2025-05-25T04:45:06Z) - A Complexity-Based Theory of Compositionality [53.025566128892066]
AIでは、構成表現は配布外一般化の強力な形式を可能にすることができる。
ここでは、構成性に関する直観を考慮し、拡張する、表現的構成性と呼ばれる定義を提案する。
私たちは、AIと認知科学の両方において、文学全体から異なる直観を統一する方法を示します。
論文 参考訳(メタデータ) (2024-10-18T18:37:27Z) - Hierarchical Open-vocabulary Universal Image Segmentation [48.008887320870244]
Open-vocabulary Image segmentationは、任意のテキスト記述に従ってイメージをセマンティック領域に分割することを目的としている。
我々は,「モノ」と「スタッフ」の双方に対して,分離されたテキストイメージ融合機構と表現学習モジュールを提案する。
HIPIE tackles, HIerarchical, oPen-vocabulary, unIvErsal segmentation task in a unified framework。
論文 参考訳(メタデータ) (2023-07-03T06:02:15Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - Hyperbolic Image-Text Representations [28.91160313537875]
本稿では,画像とテキストの双曲表現を生成するコントラストモデルMERUを提案する。
この結果から,MERUはCLIPの性能と競合しながら,高度に解釈可能で構造化された表現空間を学習していることがわかった。
論文 参考訳(メタデータ) (2023-04-18T17:59:45Z) - HiCLIP: Contrastive Language-Image Pretraining with Hierarchy-aware
Attention [38.9792837990585]
階層対応のCLIP(Hierarchy-aware CLIP:HiCLIP)という,階層対応のCLIPの視覚と言語の両方を装備する。
HiCLIPは、画像とテキストの両方から階層構造を、教師なしの方法で徐々に発見する。
結果として、このような階層的な集約は、クロスモーダルアライメントを著しく改善する。
論文 参考訳(メタデータ) (2023-03-06T09:44:01Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Decomposing lexical and compositional syntax and semantics with deep
language models [82.81964713263483]
GPT2のような言語変換器の活性化は、音声理解中の脳活動に線形にマップすることが示されている。
本稿では,言語モデルの高次元アクティベーションを,語彙,構成,構文,意味表現の4つのクラスに分類する分類法を提案する。
その結果は2つの結果が浮かび上がった。
まず、構成表現は、語彙よりも広範な皮質ネットワークを募集し、両側の側頭、頭頂、前頭前皮質を包含する。
論文 参考訳(メタデータ) (2021-03-02T10:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。