論文の概要: Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2603.00431v1
- Date: Sat, 28 Feb 2026 03:13:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.188349
- Title: Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models
- Title(参考訳): 大規模マルチモーダルモデルを用いた階層型視覚認識のための分類・認識型表現アライメント
- Authors: Hulingxiao He, Zhi Tan, Yuxin Peng,
- Abstract要約: 高パフォーマンスで汎用的な視覚理解モデルは、ラベルの分類木に視覚入力をマッピングすべきである。
我々は,分類学的知識をLMMに注入する簡易かつ効果的な方法として,分類学的認識表現アライメント(TARA)を提案する。
TARAはLMMの階層的一貫性と葉ノードの精度を一貫して強化し、既知のカテゴリと新しいカテゴリの両方を確実に認識する。
- 参考スコア(独自算出の注目度): 47.868429337792314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A high-performing, general-purpose visual understanding model should map visual inputs to a taxonomic tree of labels, identify novel categories beyond the training set for which few or no publicly available images exist. Large Multimodal Models (LMMs) have achieved remarkable progress in fine-grained visual recognition (FGVR) for known categories. However, they remain limited in hierarchical visual recognition (HVR) that aims at predicting consistent label paths from coarse to fine categories, especially for novel categories. To tackle these challenges, we propose Taxonomy-Aware Representation Alignment (TARA), a simple yet effective strategy to inject taxonomic knowledge into LMMs. TARA leverages representations from biology foundation models (BFMs) that encode rich biological relationships through hierarchical contrastive learning. By aligning the intermediate representations of visual features with those of BFMs, LMMs are encouraged to extract discriminative visual cues well structured in the taxonomy tree. Additionally, we align the representations of the first answer token with the ground-truth label, flexibly bridging the gap between contextualized visual features and categories of varying granularity according to user intent. Experiments demonstrate that TARA consistently enhances LMMs' hierarchical consistency and leaf node accuracy, enabling reliable recognition of both known and novel categories within complex biological taxonomies. Code is available at https://github.com/PKU-ICST-MIPL/TARA_CVPR2026.
- Abstract(参考訳): 高パフォーマンスで汎用的な視覚的理解モデルは、視覚的な入力をラベルの分類木にマッピングし、公開画像がほとんど、または全く存在しないトレーニングセット以外の新しいカテゴリを特定する必要がある。
大規模マルチモーダルモデル(LMM)は、既知のカテゴリに対するきめ細かい視覚認識(FGVR)において顕著な進歩を遂げている。
しかし、これらは、特に新しいカテゴリーにおいて、粗いものから細かいものまで一貫したラベルパスを予測することを目的とした階層的視覚認識(HVR)に限られている。
これらの課題に対処するために,分類学的知識をLMMに注入する簡易かつ効果的な戦略であるTARA(Taxonomy-Aware Representation Alignment)を提案する。
TARAは、階層的なコントラスト学習を通じてリッチな生物学的関係を符号化する生物学基礎モデル(BFM)の表現を活用している。
視覚特徴の中間表現をBFMと整合させることにより、LMMは分類木によく構築された識別的視覚的手がかりを抽出することが奨励される。
さらに,第1の回答トークンの表現を接地木ラベルと整合させ,コンテキスト化された視覚特徴と,ユーザ意図に応じた粒度の異なるカテゴリとのギャップを柔軟に埋める。
実験により、TARAはLMMの階層的一貫性と葉ノードの精度を一貫して向上し、複雑な生物学的分類学における既知のカテゴリと新しいカテゴリの両方を確実に認識できることが示された。
コードはhttps://github.com/PKU-ICST-MIPL/TARA_CVPR2026で公開されている。
関連論文リスト
- Generalized Fine-Grained Category Discovery with Multi-Granularity Conceptual Experts [81.68203255687051]
Generalized Category Discoveryは、部分的にラベル付けされたカテゴリの知識を活用することでラベル付けされていないデータをクラスタリングする、オープンワールドな問題である。
既存のアプローチでは、視覚データにおいて複数の粒度の概念情報を活用できない。
精度の高いカテゴリ発見のための多粒度知識を統合した多粒度エキスパートフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-30T13:25:11Z) - Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model [52.01031460230826]
伝統的なアプローチは固定語彙と閉集合分類パラダイムに大きく依存している。
近年の研究では、大規模言語モデルと視覚言語モデル(VLM)を組み合わせることで、オープンセット認識が可能であることが実証されている。
そこで本研究では,精密な視覚認識のための最先端の手法であるEnriched-FineRを提案する。
論文 参考訳(メタデータ) (2025-07-30T20:06:01Z) - Cross-Hierarchical Bidirectional Consistency Learning for Fine-Grained Visual Classification [1.757077789361314]
分類精度と整合性を改善するために,新しい階層型双方向学習(CHBC)フレームワークを提案する。
CHBCフレームワークは、注目マスクの分解と強化のために特別に設計されたモジュールを使用して、様々な階層にわたる差別的特徴を抽出する。
広く使われている3つのFGVCデータセットの実験は、CHBCフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2025-04-18T10:30:17Z) - Learning Semantic-Aware Representation in Visual-Language Models for Multi-Label Recognition with Partial Labels [19.740929527669483]
部分ラベル付きマルチラベル認識(MLR-PL)はコンピュータビジョンにおける実用的な課題である。
セマンティックデカップリングモジュールとカテゴリ固有のプロンプト最適化手法をCLIPベースのフレームワークで導入する。
提案手法は,CLIPベースのベースライン方式と比較して,情報と異なるカテゴリを効果的に分離し,優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-14T14:31:36Z) - Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
本稿では,カテゴリ適応型クロスモーダル・セマンティック・リファインメント・アンド・トランスファー(C$2$SRT)フレームワークを提案する。
提案するフレームワークは,2つの相補的モジュール,すなわち,カテゴリ内セマンティックリファインメント(ISR)モジュールと,カテゴリ間セマンティックトランスファー(IST)モジュールから構成される。
OV-MLRベンチマークの実験は、提案されたC$2$SRTフレームワークが現在の最先端アルゴリズムより優れていることを明らかに示している。
論文 参考訳(メタデータ) (2024-12-09T04:00:18Z) - Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Knowledge-Guided Multi-Label Few-Shot Learning for General Image
Recognition [75.44233392355711]
KGGRフレームワークは、ディープニューラルネットワークと統計ラベル相関の事前知識を利用する。
まず、統計ラベルの共起に基づいて異なるラベルを相関させる構造化知識グラフを構築する。
次に、ラベルセマンティクスを導入し、学習セマンティクス固有の特徴をガイドする。
グラフノードの相互作用を探索するためにグラフ伝搬ネットワークを利用する。
論文 参考訳(メタデータ) (2020-09-20T15:05:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。