論文の概要: Visually Consistent Hierarchical Image Classification
- arxiv url: http://arxiv.org/abs/2406.11608v2
- Date: Wed, 16 Apr 2025 20:19:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:33:43.230140
- Title: Visually Consistent Hierarchical Image Classification
- Title(参考訳): 視覚的一貫性のある階層的画像分類
- Authors: Seulki Park, Youren Zhang, Stella X. Yu, Sara Beery, Jonathan Huang,
- Abstract要約: 階層分類は、例えば、粗いレベルの"Bird"から中レベルの"Hummingbird"から、細かいレベルの"Green hermit"まで、複数の分類のレベルにまたがるラベルを予測する。
- 参考スコア(独自算出の注目度): 37.80849457554078
- License:
- Abstract: Hierarchical classification predicts labels across multiple levels of a taxonomy, e.g., from coarse-level 'Bird' to mid-level 'Hummingbird' to fine-level 'Green hermit', allowing flexible recognition under varying visual conditions. It is commonly framed as multiple single-level tasks, but each level may rely on different visual cues: Distinguishing 'Bird' from 'Plant' relies on global features like feathers or leaves, while separating 'Anna's hummingbird' from 'Green hermit' requires local details such as head coloration. Prior methods improve accuracy using external semantic supervision, but such statistical learning criteria fail to ensure consistent visual grounding at test time, resulting in incorrect hierarchical classification. We propose, for the first time, to enforce internal visual consistency by aligning fine-to-coarse predictions through intra-image segmentation. Our method outperforms zero-shot CLIP and state-of-the-art baselines on hierarchical classification benchmarks, achieving both higher accuracy and more consistent predictions. It also improves internal image segmentation without requiring pixel-level annotations.
- Abstract(参考訳): 階層分類は、分類学の複数のレベル、例えば、粗いレベルの「バード」から中レベルの「ハンミングバード」から、細かいレベルの「グリーン・ハーミット」までのラベルを予測し、様々な視覚的条件下で柔軟な認識を可能にする。
一般的には複数の単一レベルタスクとして扱われるが、それぞれのレベルは異なる視覚的手がかりに依存することがある: 「プラント」から「バード」を識別することは、羽や葉のようなグローバルな特徴に依存し、一方、「アナのハチドリ」を「グリーン・ハーミット」から分離するには、頭部の彩色のような局所的な詳細を必要とする。
従来の手法では、外部の意味的監督を用いて精度を向上させるが、そのような統計的学習基準は、テスト時に一貫した視覚的基盤を確保することができず、誤った階層分類をもたらす。
画像内セグメンテーションによる微視的・粗視的予測を整列させることにより、内部の視覚的整合性を初めて実施することを提案する。
提案手法は,階層分類ベンチマークにおいて,ゼロショットCLIPと最先端のベースラインを上回り,高い精度とより一貫性のある予測を達成している。
また、ピクセルレベルのアノテーションを必要とせずに、内部画像のセグメンテーションを改善する。
関連論文リスト
- Hybrid Losses for Hierarchical Embedding Learning [4.2525210928495625]
マルチタスク学習フレームワークにおいて,一般化三重項やクロスエントロピー損失などのハイブリッド損失について検討する。
従来の分類, 検索, 組込み空間構造, 一般化において, 提案されたハイブリッド損失は, 従来よりも優れていたことが実証された。
論文 参考訳(メタデータ) (2025-01-22T10:58:04Z) - Bidirectional Logits Tree: Pursuing Granularity Reconcilement in Fine-Grained Classification [89.20477310885731]
本稿では,粒度分類タスクにおけるグラニュラリティコンペティションの課題について述べる。
既存のアプローチは通常、共通のベースエンコーダから抽出された共有特徴に基づいて、独立した階層認識モデルを開発する。
グラニュラリティ再構成のための双方向ロジットツリー(BiLT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-17T10:42:19Z) - Harnessing Superclasses for Learning from Hierarchical Databases [1.835004446596942]
多くの大規模分類問題において、クラスは既知の階層に整理され、通常木として表される。
この種の教師付き階層分類の損失について紹介する。
提案手法では,クロスエントロピーの損失に比較して,計算コストの大幅な増大は伴わない。
論文 参考訳(メタデータ) (2024-11-25T14:39:52Z) - Semantic Guided Level-Category Hybrid Prediction Network for
Hierarchical Image Classification [8.456482280676884]
階層分類(HC)は、各オブジェクトに階層構造にまとめられた複数のラベルを割り当てる。
本稿では,そのレベルとカテゴリの予測をエンドツーエンドで共同で行うことのできる,セマンティックガイド付き階層型ハイブリッド予測ネットワーク(SGLCHPN)を提案する。
論文 参考訳(メタデータ) (2022-11-22T13:49:10Z) - Hierarchical classification at multiple operating points [1.520694326234112]
階層内の各クラスにスコアを割り当てる任意のメソッドに対して,演算特性曲線を生成する効率的なアルゴリズムを提案する。
2つの新しい損失関数を提案し、構造的ヒンジ損失のソフトな変形が平坦なベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2022-10-19T23:36:16Z) - Weakly-supervised Action Localization via Hierarchical Mining [76.00021423700497]
弱教師付きアクションローカライゼーションは、ビデオレベルの分類ラベルだけで、与えられたビデオ内のアクションインスタンスを時間的にローカライズし、分類することを目的としている。
ビデオレベルおよびスニペットレベルでの階層的マイニング戦略,すなわち階層的監視と階層的一貫性マイニングを提案する。
我々は、HiM-NetがTHUMOS14とActivityNet1.3データセットの既存の手法よりも、階層的に監督と一貫性をマイニングすることで、大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2022-06-22T12:19:09Z) - Deep Hierarchical Semantic Segmentation [76.40565872257709]
階層的セマンティックセマンティックセグメンテーション(HSS)は、クラス階層の観点で視覚的観察を構造化、ピクセル単位で記述することを目的としている。
HSSNは、HSSを画素単位のマルチラベル分類タスクとしてキャストし、現在のセグメンテーションモデルに最小限のアーキテクチャ変更をもたらすだけである。
階層構造によって引き起こされるマージンの制約により、HSSNはピクセル埋め込み空間を再評価し、よく構造化されたピクセル表現を生成する。
論文 参考訳(メタデータ) (2022-03-27T15:47:44Z) - United We Learn Better: Harvesting Learning Improvements From Class
Hierarchies Across Tasks [9.687531080021813]
本稿では,確率と集合論に基づいて,親の予測と階層的損失を抽出する理論的枠組みを提案する。
その結果、分類と検出のベンチマークにまたがって結果が示され、シグモイドに基づく検出アーキテクチャの階層的学習の可能性が開かれた。
論文 参考訳(メタデータ) (2021-07-28T20:25:37Z) - Exploring the Hierarchy in Relation Labels for Scene Graph Generation [75.88758055269948]
提案手法は,Recall@50において,複数の最先端ベースラインを大きなマージン(最大33%の相対利得)で改善することができる。
実験により,提案手法により,最先端のベースラインを大きなマージンで改善できることが示された。
論文 参考訳(メタデータ) (2020-09-12T17:36:53Z) - Phase Consistent Ecological Domain Adaptation [76.75730500201536]
意味的セグメンテーション(意味的セグメンテーション)の課題に焦点をあてる。そこでは、注釈付き合成データが多用されるが、実際のデータへのアノテートは困難である。
視覚心理学に触発された最初の基準は、2つの画像領域間の地図が位相保存であることである。
第2の基準は、照明剤や撮像センサーの特性に関わらず、その画像に現れる環境統計、またはシーン内の規則を活用することを目的としている。
論文 参考訳(メタデータ) (2020-04-10T06:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。