論文の概要: ARGENT: Adaptive Hierarchical Image-Text Representations
- arxiv url: http://arxiv.org/abs/2603.23311v1
- Date: Tue, 24 Mar 2026 15:14:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.555913
- Title: ARGENT: Adaptive Hierarchical Image-Text Representations
- Title(参考訳): ARGENT: 適応的階層的画像テキスト表現
- Authors: Chuong Huynh, Hossein Souri, Abhinav Kumar, Vitali Petsiuk, Deen Dayal Mohan, Suren Kumar,
- Abstract要約: 本稿では,より強力な双曲型VLMベースラインARGENT,Adaptive hieRarchical imaGe-tExt rereseNTationを導入する。
本稿では,より強力な双曲型VLMベースラインARGENT,Adaptive hieRarchical imaGe-tExt rereseNTationを提案する。
- 参考スコア(独自算出の注目度): 12.724220731465392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale Vision-Language Models (VLMs) such as CLIP learn powerful semantic representations but operate in Euclidean space, which fails to capture the inherent hierarchical structure of visual and linguistic concepts. Hyperbolic geometry, with its exponential volume growth, offers a principled alternative for embedding such hierarchies with low distortion. However, existing hyperbolic VLMs use entailment losses that are unstable: as parent embeddings contract toward the origin, their entailment cones widen toward a half-space, causing catastrophic cone collapse that destroys the intended hierarchy. Additionally, hierarchical evaluation of these models remains unreliable, being largely retrieval-based and correlation-based metrics and prone to taxonomy dependence and ambiguous negatives. To address these limitations, we propose an adaptive entailment loss paired with a norm regularizer that prevents cone collapse without heuristic aperture clipping. We further introduce an angle-based probabilistic entailment protocol (PEP) for evaluating hierarchical understanding, scored with AUC-ROC and Average Precision. This paper introduces a stronger hyperbolic VLM baseline ARGENT, Adaptive hieRarchical imaGe-tExt represeNTation. ARGENT improves the SOTA hyperbolic VLM by 0.7, 1.1, and 0.8 absolute points on image classification, text-to-image retrieval, and proposed hierarchical metrics, respectively.
- Abstract(参考訳): CLIPのような大規模視覚言語モデル(VLM)は強力な意味表現を学習するが、ユークリッド空間で機能する。
指数的体積成長を持つ双曲幾何学は、そのような階層を低歪みで埋め込むための原則的な代替手段を提供する。
しかし、既存の双曲型 VLM はエンテーメント損失を不安定に利用しており、親の埋め込みが原点に向かって収縮すると、そのエンテーメントコーンは半空間に向かって広がり、破滅的なコーン崩壊を引き起こし、意図された階層を破壊する。
さらに、これらのモデルの階層的評価は信頼できないままであり、主に検索に基づく相関に基づくメトリクスであり、分類依存や曖昧な負の傾向にある。
これらの制約に対処するため,正規正規化器と組み合わせた適応型エンテーメント損失を提案する。
さらに、AUC-ROCと平均精度で得られた階層的理解を評価するために、角度に基づく確率的包絡プロトコル(PEP)を導入する。
本稿では,より強力な双曲型VLMベースラインARGENT,Adaptive hieRarchical imaGe-tExt rereseNTationを提案する。
ARGENTは、画像分類、テキスト・ツー・イメージ検索、提案された階層的メトリクスにおいて、SOTA双曲型VLMを0.7、1.1、0.8絶対点で改善する。
関連論文リスト
- OCP: Orthogonal Constrained Projection for Sparse Scaling in Industrial Commodity Recommendation [9.265389086960656]
キーとなる課題は、アイテムId語彙がスパーススケーリングを受けると低周波情報干渉に悩まされることである。
埋め込み表現を最適化する直交制約投影法を提案する。
論文 参考訳(メタデータ) (2026-03-19T09:57:26Z) - Understanding Degradation with Vision Language Model [56.09241449206817]
視覚的劣化を理解することは、コンピュータビジョンにおいて重要な問題であるが、難しい問題である。
本稿では,教師付き微調整と強化学習を併用したマルチモーダル・チェーン・オブ・ソート・モデルであるDU-VLMを紹介する。
また,110,000個のクリーン劣化ペアと接地された物理アノテーションからなる大規模データセットである textbfDU-110k も導入した。
論文 参考訳(メタデータ) (2026-02-04T13:51:15Z) - SAGE: Sequence-level Adaptive Gradient Evolution for Generative Recommendation [8.54123828673921]
本稿では,リストワイド生成レコメンデーションに適した統一最適化フレームワークを提案する。
シーケンスレベルの信号デカップリング: 幾何平均的重要性比と分離された多目的の利点を組み合わせることにより、トークンレベルの分散を排除します。
非対称適応ダイナミクス: 超線形更新を実現するために、高強度冷間開始項目に「ブーストファクタ」を適用した動的勾配多様体を構築する。
論文 参考訳(メタデータ) (2026-01-29T09:30:13Z) - Hierarchy-Aware Fine-Tuning of Vision-Language Models [18.244518940229202]
視覚言語モデルは、大規模な画像テキスト事前学習を通じて強力なマルチモーダル表現を学習する。
標準的アプローチはラベルをフラットなカテゴリとして扱い、完全な微調整を必要とする。
構造的一貫性を保ちつつ,いくつかのパラメータを更新する,効率的な階層型微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-25T06:44:33Z) - Enhancing CLIP Robustness via Cross-Modality Alignment [54.01929554563447]
視覚言語モデルのための最適なトランスポートベースフレームワークであるクロスモダリティアライメントを提案する。
COLAは、グローバルな画像テキストアライメントと特徴空間における局所的な構造的一貫性を復元する。
COLAはトレーニングフリーで、既存の微調整モデルと互換性がある。
論文 参考訳(メタデータ) (2025-10-28T03:47:44Z) - IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction [77.06211178777939]
IAR2は、階層的なセマンティックディーテール合成プロセスを可能にする高度な自己回帰フレームワークである。
我々は、IAR2が自動回帰画像生成のための新しい最先端技術を設定し、ImageNet上で1.50のFIDを達成することを示す。
論文 参考訳(メタデータ) (2025-10-08T12:08:21Z) - Dense Semantic Matching with VGGT Prior [49.42199006453071]
本稿では,VGGTの本質的な強みを,初期の特徴段階を再利用し,後続の特徴段階を微調整し,双方向対応のための意味的頭部を追加することによって維持するアプローチを提案する。
提案手法は, 従来のベースラインよりも優れた幾何認識, 整合性, および多様体保存を実現する。
論文 参考訳(メタデータ) (2025-09-25T14:56:11Z) - HyperTTA: Test-Time Adaptation for Hyperspectral Image Classification under Distribution Shifts [28.21559601586271]
HyperTTA (Test-Time Adaptable Transformer for Hyperspectral Degradation) は、様々な劣化条件下でモデルロバスト性を高める統一フレームワークである。
テスト時の適応戦略である、信頼を意識したエントロピー最小化LayerNorm Adapter (CELA)は、LayerNorm層のアフィンパラメータのみを動的に更新する。
2つのベンチマークデータセットの実験では、HyperTTAがさまざまな劣化シナリオで最先端のベースラインを上回っていることが示されている。
論文 参考訳(メタデータ) (2025-09-10T09:31:37Z) - TRUST: Leveraging Text Robustness for Unsupervised Domain Adaptation [9.906359339999039]
視覚モデルの適応を導くために,言語モダリティの堅牢性を活用する新しいUDAアプローチを導入する。
視覚と言語の特徴空間を整合させるマルチモーダルなソフトコントラスト学習損失を提案する。
我々のアプローチは従来の手法よりも優れており、従来の(DomainNet)ドメインシフトと複雑な(GeoNet)ドメインシフトに新しい最先端の設定を施しています。
論文 参考訳(メタデータ) (2025-08-08T16:51:44Z) - Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
PADとFFDはそれぞれ物理メディアベースのプレゼンテーションアタックとデジタル編集ベースのDeepFakeから顔データを保護するために提案されている。
これら2つのカテゴリの攻撃を同時に処理する統一顔攻撃検出モデルがないことは、主に2つの要因に起因する。
本稿では,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:35:45Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。