論文の概要: Uncertainty-guided Compositional Alignment with Part-to-Whole Semantic Representativeness in Hyperbolic Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.22042v2
- Date: Tue, 24 Mar 2026 11:22:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 12:42:17.610611
- Title: Uncertainty-guided Compositional Alignment with Part-to-Whole Semantic Representativeness in Hyperbolic Vision-Language Models
- Title(参考訳): 双曲型視覚・言語モデルにおける部分-2ホール意味表現による不確実性誘導構成アライメント
- Authors: Hayeon Kim, Ji Ha Jang, Junghun James Kim, Se Young Chun,
- Abstract要約: 双曲型視覚ランゲージモデル(VLM)の高機能化のための不確実性誘導型構成的双曲アライメント(UNCHA)を提案する。
UNCHAは、より代表的な部分に低い不確実性を割り当て、全体の代表的な部分に低い不確実性を割り当てることによって、双曲的不確実性を伴う部分対全体的な意味的代表性をモデル化する。
UNCHAはゼロショット分類、検索、マルチラベル分類のベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 30.214536576233957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Vision-Language Models (VLMs) have achieved remarkable performance, their Euclidean embeddings remain limited in capturing hierarchical relationships such as part-to-whole or parent-child structures, and often face challenges in multi-object compositional scenarios. Hyperbolic VLMs mitigate this issue by better preserving hierarchical structures and modeling part-whole relations (i.e., whole scene and its part images) through entailment. However, existing approaches do not model that each part has a different level of semantic representativeness to the whole. We propose UNcertainty-guided Compositional Hyperbolic Alignment (UNCHA) for enhancing hyperbolic VLMs. UNCHA models part-to-whole semantic representativeness with hyperbolic uncertainty, by assigning lower uncertainty to more representative parts and higher uncertainty to less representative ones for the whole scene. This representativeness is then incorporated into the contrastive objective with uncertainty-guided weights. Finally, the uncertainty is further calibrated with an entailment loss regularized by entropy-based term. With the proposed losses, UNCHA learns hyperbolic embeddings with more accurate part-whole ordering, capturing the underlying compositional structure in an image and improving its understanding of complex multi-object scenes. UNCHA achieves state-of-the-art performance on zero-shot classification, retrieval, and multi-label classification benchmarks. Our code and models are available at: https://github.com/jeeit17/UNCHA.git.
- Abstract(参考訳): VLM(Vision-Language Models)は目覚ましい性能を達成したが、ユークリッドの埋め込みは、部分対全体構造や親子構造のような階層的な関係を捉え、多目的構成シナリオにおいてしばしば課題に直面している。
双曲的VLMは階層構造をよりよく保存し、包含を通して部分的関係(シーン全体とその部分像)をモデル化することでこの問題を緩和する。
しかし、既存のアプローチは、各部分が全体に対して異なる意味的代表性を持っていることをモデル化していない。
本稿では, ハイパボリックVLMの高機能化を目的としたuncerty-guided compositional hyperbolic Alignment (UNCHA)を提案する。
UNCHAは、より代表的な部分に低い不確実性を割り当て、全体の代表的な部分に低い不確実性を割り当てることによって、双曲的不確実性を伴う部分対全体的な意味的代表性をモデル化する。
この代表性は、不確実性誘導重みによる対照的な目的に組み込まれる。
最後に、不確実性はさらにエントロピーに基づく項によって規則化されたエンテーメント損失で校正される。
提案された損失により、UNCHAはより正確な部分順序付けによる双曲的埋め込みを学び、画像の基盤となる構成構造を捉え、複雑な多目的シーンの理解を改善した。
UNCHAはゼロショット分類、検索、マルチラベル分類のベンチマークで最先端のパフォーマンスを達成する。
私たちのコードとモデルは、https://github.com/jeeit17/UNCHA.git.comで利用可能です。
関連論文リスト
- AG-VAS: Anchor-Guided Zero-Shot Visual Anomaly Segmentation with Large Multimodal Models [21.682989096955467]
AG-VAS(Anchor-Guided Visual Anomaly)は、3つの学習可能なセマンティックアンカートークンでLMM語彙を拡張する新しいフレームワークである。
AG-VASはゼロショット設定で一貫した最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-01T22:25:23Z) - Position: General Alignment Has Hit a Ceiling; Edge Alignment Must Be Taken Seriously [51.03213216886717]
我々は、一般的なアライメントの支配的なパラダイムが、矛盾する値の設定において構造的な天井に達するという立場を取る。
エッジアライメント(Edge Alignment)は,多次元の値構造を保持するシステムにおいて,異なるアプローチである。
論文 参考訳(メタデータ) (2026-02-23T16:51:43Z) - Understanding Degradation with Vision Language Model [56.09241449206817]
視覚的劣化を理解することは、コンピュータビジョンにおいて重要な問題であるが、難しい問題である。
本稿では,教師付き微調整と強化学習を併用したマルチモーダル・チェーン・オブ・ソート・モデルであるDU-VLMを紹介する。
また,110,000個のクリーン劣化ペアと接地された物理アノテーションからなる大規模データセットである textbfDU-110k も導入した。
論文 参考訳(メタデータ) (2026-02-04T13:51:15Z) - SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - LP-LLM: End-to-End Real-World Degraded License Plate Text Recognition via Large Multimodal Models [4.497411606350301]
LPR(Real-world License Plate Recognition)は、モーションボケ、低解像度、複雑な照明などの深刻な劣化によって大きな課題に直面している。
画像復元モデルの画素レベルの最適化目標は、文字認識のセマンティックな目標と不一致である。
本稿では,Qwen3-VLに基づくエンドツーエンド構造対応マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-14T03:32:55Z) - UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。
階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。
我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文 参考訳(メタデータ) (2025-09-19T17:29:25Z) - $φ^{\infty}$: Clause Purification, Embedding Realignment, and the Total Suppression of the Em Dash in Autoregressive Language Models [0.0]
自動回帰変換言語モデルにおいて,エムダッシュトークンがセマンティックドリフトを引き起こす重大な脆弱性を同定する。
本稿では,フィインフィニティ演算子とターゲット埋め込み行列を併用した記号節の浄化法を提案する。
論文 参考訳(メタデータ) (2025-06-22T18:27:39Z) - Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。