論文の概要: Learning Consistent Taxonomic Classification through Hierarchical Reasoning
- arxiv url: http://arxiv.org/abs/2601.14610v1
- Date: Wed, 21 Jan 2026 03:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.221329
- Title: Learning Consistent Taxonomic Classification through Hierarchical Reasoning
- Title(参考訳): 階層的推論による一貫した分類分類の学習
- Authors: Zhenghong Li, Kecheng Zheng, Haibin Ling,
- Abstract要約: 分類学分類における葉レベル精度と階層的整合性を改善するための2段階階層型推論フレームワークを提案する。
我々のフレームワークはQwen2.5-VL-7Bモデルで実装され、葉レベルと階層的整合性の両方で元の72Bを10%以上上回っている。
- 参考スコア(独自算出の注目度): 61.372270953201955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Vision-Language Models (VLMs) excel at visual understanding, they often fail to grasp hierarchical knowledge. This leads to common errors where VLMs misclassify coarser taxonomic levels even when correctly identifying the most specific level (leaf level). Existing approaches largely overlook this issue by failing to model hierarchical reasoning. To address this gap, we propose VL-Taxon, a two-stage, hierarchy-based reasoning framework designed to improve both leaf-level accuracy and hierarchical consistency in taxonomic classification. The first stage employs a top-down process to enhance leaf-level classification accuracy. The second stage then leverages this accurate leaf-level output to ensure consistency throughout the entire taxonomic hierarchy. Each stage is initially trained with supervised fine-tuning to instill taxonomy knowledge, followed by reinforcement learning to refine the model's reasoning and generalization capabilities. Extensive experiments reveal a remarkable result: our VL-Taxon framework, implemented on the Qwen2.5-VL-7B model, outperforms its original 72B counterpart by over 10% in both leaf-level and hierarchical consistency accuracy on average on the iNaturalist-2021 dataset. Notably, this significant gain was achieved by fine-tuning on just a small subset of data, without relying on any examples generated by other VLMs.
- Abstract(参考訳): VLM(Vision-Language Models)は視覚的理解に優れるが、階層的知識の理解に失敗することが多い。
これは、VLMが最も特定のレベル(リーフレベル)を正しく識別しても、粗い分類レベルを誤って分類する一般的なエラーにつながる。
既存のアプローチは、階層的推論のモデル化に失敗することによって、この問題を概ね見落としている。
このギャップに対処するために、分類学分類における葉のレベル精度と階層的一貫性の両方を改善するために設計された2段階階層ベースの推論フレームワークであるVL-Taxonを提案する。
第1段階では、葉の分類精度を高めるためにトップダウンのプロセスを採用している。
次に第2段階は、この正確な葉レベル出力を活用して、分類学的階層全体の一貫性を確保する。
それぞれの段階は、まず分類学の知識を注入するために教師付き微調整で訓練され、続いてモデルの推論と一般化能力を洗練するための強化学習が行われる。
我々のVL-タクソンフレームワークは、Qwen2.5-VL-7Bモデルで実装され、iNaturalist-2021データセットで、葉レベルと階層的整合性の両方で、元の72Bよりも10%以上優れています。
特に、この大きな利益は、データの一部だけを微調整し、他のVLMで生成された例に頼らずに達成された。
関連論文リスト
- Hierarchy-Aware Fine-Tuning of Vision-Language Models [18.244518940229202]
視覚言語モデルは、大規模な画像テキスト事前学習を通じて強力なマルチモーダル表現を学習する。
標準的アプローチはラベルをフラットなカテゴリとして扱い、完全な微調整を必要とする。
構造的一貫性を保ちつつ,いくつかのパラメータを更新する,効率的な階層型微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-25T06:44:33Z) - Feature Identification for Hierarchical Contrastive Learning [7.655211354400059]
本稿では,2つの新しい階層型コントラスト学習法を提案する。
提案手法は,階層レベルのクラス間関係と不均衡なクラス分布を明示的にモデル化する。
提案手法は,線形評価における最先端性能を実現し,既存の階層的コントラスト学習法を精度で2ポイント向上させる。
論文 参考訳(メタデータ) (2025-10-01T12:46:47Z) - Enforcing Consistency and Fairness in Multi-level Hierarchical Classification with a Mask-based Output Layer [25.819440955594736]
分類を強制し、一貫性、公正性、正確な一致を含む目的を最適化するために設計された公正でモデルに依存しないレイヤを導入します。
評価の結果,提案した層は予測の公平性を向上するだけでなく,分類を強制し,一貫した予測と優れた性能をもたらすことが示された。
論文 参考訳(メタデータ) (2025-03-19T06:30:04Z) - Visually Consistent Hierarchical Image Classification [37.80849457554078]
階層分類は、例えば、粗いレベルの"Bird"から中レベルの"Hummingbird"から、細かいレベルの"Green hermit"まで、複数の分類のレベルにまたがるラベルを予測する。
論文 参考訳(メタデータ) (2024-06-17T14:56:51Z) - CRoFT: Robust Fine-Tuning with Concurrent Optimization for OOD Generalization and Open-Set OOD Detection [42.33618249731874]
トレーニングデータにおけるエネルギースコアの最大化は、ドメイン一貫性のあるヘッセンの分類損失につながることを示す。
我々は,両タスクの同時最適化を可能にする統合された微調整フレームワークを開発した。
論文 参考訳(メタデータ) (2024-05-26T03:28:59Z) - Deep Imbalanced Regression via Hierarchical Classification Adjustment [50.19438850112964]
コンピュータビジョンにおける回帰タスクは、しばしば、対象空間をクラスに定量化することで分類される。
トレーニングサンプルの大多数は目標値の先頭にあるが、少数のサンプルは通常より広い尾幅に分布する。
不均衡回帰タスクを解くために階層型分類器を構築することを提案する。
不均衡回帰のための新しい階層型分類調整(HCA)は,3つのタスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2023-10-26T04:54:39Z) - ProTeCt: Prompt Tuning for Taxonomic Open Set Classification [59.59442518849203]
分類学的オープンセット(TOS)設定では、ほとんどショット適応法はうまくいきません。
本稿では,モデル予測の階層的一貫性を校正する即時チューニング手法を提案する。
次に,階層整合性のための新しいPrompt Tuning(ProTeCt)手法を提案し,ラベル集合の粒度を分類する。
論文 参考訳(メタデータ) (2023-06-04T02:55:25Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Making CNNs Interpretable by Building Dynamic Sequential Decision
Forests with Top-down Hierarchy Learning [62.82046926149371]
本稿では,CNN(Convlutional Neural Networks)を解釈可能なモデル転送方式を提案する。
我々は、CNNの上に微分可能な意思決定林を構築することで、これを実現する。
DDSDF(Dep Dynamic Sequential Decision Forest)と命名する。
論文 参考訳(メタデータ) (2021-06-05T07:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。