論文の概要: Training-Free Dual Hyperbolic Adapters for Better Cross-Modal Reasoning
- arxiv url: http://arxiv.org/abs/2512.08820v1
- Date: Tue, 09 Dec 2025 17:12:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.061355
- Title: Training-Free Dual Hyperbolic Adapters for Better Cross-Modal Reasoning
- Title(参考訳): クロスモーダル推論のためのトレーニングフリー双曲双曲型適応器
- Authors: Yi Zhang, Chun-Wun Cheng, Junyi He, Ke Yu, Yushun Tang, Carola-Bibiane Schönlieb, Zhihai He, Angelica I. Aviles-Rivero,
- Abstract要約: 我々は、textitTraining-free Dual Hyperbolic Adapters (T-DHA) と呼ばれる、大きな視覚言語モデルに対する新しい適応法を開発した。
従来のユークリッド空間の代わりに双曲空間において、一般に階層木構造を持つ意味概念間の視覚的・言語的関係を特徴づける。
各種データセットに対する大規模な実験結果から,T-DHA法は,画像認識や領域一般化タスクにおいて,既存の最先端手法を著しく上回っていることが明らかとなった。
- 参考スコア(独自算出の注目度): 38.464005168841986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research in Vision-Language Models (VLMs) has significantly advanced our capabilities in cross-modal reasoning. However, existing methods suffer from performance degradation with domain changes or require substantial computational resources for fine-tuning in new domains. To address this issue, we develop a new adaptation method for large vision-language models, called \textit{Training-free Dual Hyperbolic Adapters} (T-DHA). We characterize the vision-language relationship between semantic concepts, which typically has a hierarchical tree structure, in the hyperbolic space instead of the traditional Euclidean space. Hyperbolic spaces exhibit exponential volume growth with radius, unlike the polynomial growth in Euclidean space. We find that this unique property is particularly effective for embedding hierarchical data structures using the Poincaré ball model, achieving significantly improved representation and discrimination power. Coupled with negative learning, it provides more accurate and robust classifications with fewer feature dimensions. Our extensive experimental results on various datasets demonstrate that the T-DHA method significantly outperforms existing state-of-the-art methods in few-shot image recognition and domain generalization tasks.
- Abstract(参考訳): VLM(Vision-Language Models)の最近の研究は、クロスモーダル推論における我々の能力を大幅に向上させてきた。
しかし、既存の手法は、ドメインの変更による性能劣化や、新しいドメインの微調整に相当な計算資源を必要とする。
この問題に対処するため、我々は大きな視覚言語モデルに対する新しい適応法である「textit{Training-free Dual Hyperbolic Adapters} (T-DHA)」を開発した。
従来のユークリッド空間の代わりに双曲空間において、一般に階層木構造を持つ意味概念間の視覚的・言語的関係を特徴づける。
双曲空間は、ユークリッド空間の多項式成長とは異なり、半径で指数体積成長を示す。
この特性は,ポアンカレ球モデルを用いて階層データ構造を埋め込み,表現力や識別力を著しく向上させるのに有効であることがわかった。
ネガティブな学習と組み合わせて、より正確でロバストな分類を提供する。
各種データセットに対する大規模な実験結果から,T-DHA法は,画像認識や領域一般化タスクにおいて,既存の最先端手法を著しく上回っていることが明らかとなった。
関連論文リスト
- Hyperbolic Deep Learning for Foundation Models: A Survey [16.14776172953206]
大量のデータセットに事前トレーニングされたファンデーションモデルは、さまざまな下流タスクで顕著な成功を収めた。
最近の進歩は、基礎モデルを強化するために双曲型ニューラルネットワークを活用している。
本稿では,双曲型ニューラルネットワークとその基盤モデルの開発について概観する。
論文 参考訳(メタデータ) (2025-07-23T09:50:17Z) - Learning Covariance-Based Multi-Scale Representation of Neuroimaging Measures for Alzheimer Classification [5.427921447614832]
モデルサイズが合理的に増大した効率的な高次元空間を導出できる枠組みを提案する。
Alzheimer's Disease Neuroimaging Initiative (ADNI) による神経画像計測実験により、我々のモデルはより良い性能を示した。
トレーニングされたモデルは、マルチスケール変換上の勾配情報を用いて解釈可能とし、パーソナライズされたAD特異的領域を脳内に記述する。
論文 参考訳(メタデータ) (2025-03-03T06:55:35Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Spatiotemporal Graph Learning with Direct Volumetric Information Passing and Feature Enhancement [62.91536661584656]
本稿では,CeFeGNN(CeFeGNN)とCell-embeddedとFeature-enhanced Graph Neural Networkを学習用として提案する。
学習可能なセル属性を共通ノードエッジメッセージパッシングプロセスに埋め込むことで,地域特性の空間依存性をよりよく把握する。
各種PDEシステムと1つの実世界のデータセットを用いた実験により、CeFeGNNは他のベースラインと比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-09-26T16:22:08Z) - HVT: A Comprehensive Vision Framework for Learning in Non-Euclidean Space [1.1858475445768824]
本稿では、双曲幾何学を統合した視覚変換器(ViT)の新たな拡張である、双曲型視覚変換器(HVT)を紹介する。
従来のViTはユークリッド空間で作用するが、この手法は双曲的距離とM"オビウス変換を活用することにより自己認識機構を強化する。
厳密な数学的定式化を行い、双曲幾何学を注意層、フィードフォワードネットワーク、最適化に組み込む方法を示す。
論文 参考訳(メタデータ) (2024-09-25T13:07:37Z) - GrootVL: Tree Topology is All You Need in State Space Model [66.36757400689281]
GrootVLは、視覚的タスクとテキストタスクの両方に適用できる多目的マルチモーダルフレームワークである。
本手法は, 画像分類, オブジェクト検出, セグメンテーションにおいて, 既存の構造化状態空間モデルよりも大幅に優れる。
大規模言語モデルの微調整により,本手法は訓練コストの少ない複数のテキストタスクにおいて一貫した改善を実現する。
論文 参考訳(メタデータ) (2024-06-04T15:09:29Z) - Context Decoupling Augmentation for Weakly Supervised Semantic
Segmentation [53.49821324597837]
微調整されたセマンティックセグメンテーションは、近年深く研究されている困難な問題です。
本稿では、オブジェクトが現れる固有のコンテキストを変更する Context Decoupling Augmentation (CDA) メソッドを紹介します。
提案手法の有効性を検証するため, PASCAL VOC 2012データセットにいくつかの代替ネットワークアーキテクチャを用いた広範な実験を行い, CDAが様々なWSSS手法を新たな最先端技術に拡張できることを実証した。
論文 参考訳(メタデータ) (2021-03-02T15:05:09Z) - Hyperbolic Neural Networks++ [66.16106727715061]
ニューラルネットワークの基本成分を1つの双曲幾何モデル、すなわちポアンカーの球モデルで一般化する。
実験により, 従来の双曲成分と比較してパラメータ効率が優れ, ユークリッド成分よりも安定性と性能が優れていた。
論文 参考訳(メタデータ) (2020-06-15T08:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。