論文の概要: Visually Consistent Hierarchical Image Classification
- arxiv url: http://arxiv.org/abs/2406.11608v2
- Date: Wed, 16 Apr 2025 20:19:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-26 06:32:02.7766
- Title: Visually Consistent Hierarchical Image Classification
- Title(参考訳): 視覚的一貫性のある階層的画像分類
- Authors: Seulki Park, Youren Zhang, Stella X. Yu, Sara Beery, Jonathan Huang,
- Abstract要約: 階層分類は、例えば、粗いレベルの"Bird"から中レベルの"Hummingbird"から、細かいレベルの"Green hermit"まで、複数の分類のレベルにまたがるラベルを予測する。
- 参考スコア(独自算出の注目度): 37.80849457554078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical classification predicts labels across multiple levels of a taxonomy, e.g., from coarse-level 'Bird' to mid-level 'Hummingbird' to fine-level 'Green hermit', allowing flexible recognition under varying visual conditions. It is commonly framed as multiple single-level tasks, but each level may rely on different visual cues: Distinguishing 'Bird' from 'Plant' relies on global features like feathers or leaves, while separating 'Anna's hummingbird' from 'Green hermit' requires local details such as head coloration. Prior methods improve accuracy using external semantic supervision, but such statistical learning criteria fail to ensure consistent visual grounding at test time, resulting in incorrect hierarchical classification. We propose, for the first time, to enforce internal visual consistency by aligning fine-to-coarse predictions through intra-image segmentation. Our method outperforms zero-shot CLIP and state-of-the-art baselines on hierarchical classification benchmarks, achieving both higher accuracy and more consistent predictions. It also improves internal image segmentation without requiring pixel-level annotations.
- Abstract(参考訳): 階層分類は、分類学の複数のレベル、例えば、粗いレベルの「バード」から中レベルの「ハンミングバード」から、細かいレベルの「グリーン・ハーミット」までのラベルを予測し、様々な視覚的条件下で柔軟な認識を可能にする。
一般的には複数の単一レベルタスクとして扱われるが、それぞれのレベルは異なる視覚的手がかりに依存することがある: 「プラント」から「バード」を識別することは、羽や葉のようなグローバルな特徴に依存し、一方、「アナのハチドリ」を「グリーン・ハーミット」から分離するには、頭部の彩色のような局所的な詳細を必要とする。
従来の手法では、外部の意味的監督を用いて精度を向上させるが、そのような統計的学習基準は、テスト時に一貫した視覚的基盤を確保することができず、誤った階層分類をもたらす。
画像内セグメンテーションによる微視的・粗視的予測を整列させることにより、内部の視覚的整合性を初めて実施することを提案する。
提案手法は,階層分類ベンチマークにおいて,ゼロショットCLIPと最先端のベースラインを上回り,高い精度とより一貫性のある予測を達成している。
また、ピクセルレベルのアノテーションを必要とせずに、内部画像のセグメンテーションを改善する。
関連論文リスト
- Harnessing Superclasses for Learning from Hierarchical Databases [1.835004446596942]
多くの大規模分類問題において、クラスは既知の階層に整理され、通常木として表される。
この種の教師付き階層分類の損失について紹介する。
提案手法では,クロスエントロピーの損失に比較して,計算コストの大幅な増大は伴わない。
論文 参考訳(メタデータ) (2024-11-25T14:39:52Z) - TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary
Multi-Label Classification of CLIP Without Training [29.431698321195814]
Contrastive Language-Image Pre-Training (CLIP) はオープン語彙分類において顕著な能力を示した。
CLIPは、グローバル機能が最も顕著なクラスに支配される傾向があるため、マルチラベルデータセットのパフォーマンスが低い。
画像タグを得るための局所言語フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T08:15:40Z) - Semantic Guided Level-Category Hybrid Prediction Network for
Hierarchical Image Classification [8.456482280676884]
階層分類(HC)は、各オブジェクトに階層構造にまとめられた複数のラベルを割り当てる。
本稿では,そのレベルとカテゴリの予測をエンドツーエンドで共同で行うことのできる,セマンティックガイド付き階層型ハイブリッド予測ネットワーク(SGLCHPN)を提案する。
論文 参考訳(メタデータ) (2022-11-22T13:49:10Z) - Hierarchical classification at multiple operating points [1.520694326234112]
階層内の各クラスにスコアを割り当てる任意のメソッドに対して,演算特性曲線を生成する効率的なアルゴリズムを提案する。
2つの新しい損失関数を提案し、構造的ヒンジ損失のソフトな変形が平坦なベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2022-10-19T23:36:16Z) - Weakly-supervised Action Localization via Hierarchical Mining [76.00021423700497]
弱教師付きアクションローカライゼーションは、ビデオレベルの分類ラベルだけで、与えられたビデオ内のアクションインスタンスを時間的にローカライズし、分類することを目的としている。
ビデオレベルおよびスニペットレベルでの階層的マイニング戦略,すなわち階層的監視と階層的一貫性マイニングを提案する。
我々は、HiM-NetがTHUMOS14とActivityNet1.3データセットの既存の手法よりも、階層的に監督と一貫性をマイニングすることで、大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2022-06-22T12:19:09Z) - Deep Hierarchical Semantic Segmentation [76.40565872257709]
階層的セマンティックセマンティックセグメンテーション(HSS)は、クラス階層の観点で視覚的観察を構造化、ピクセル単位で記述することを目的としている。
HSSNは、HSSを画素単位のマルチラベル分類タスクとしてキャストし、現在のセグメンテーションモデルに最小限のアーキテクチャ変更をもたらすだけである。
階層構造によって引き起こされるマージンの制約により、HSSNはピクセル埋め込み空間を再評価し、よく構造化されたピクセル表現を生成する。
論文 参考訳(メタデータ) (2022-03-27T15:47:44Z) - United We Learn Better: Harvesting Learning Improvements From Class
Hierarchies Across Tasks [9.687531080021813]
本稿では,確率と集合論に基づいて,親の予測と階層的損失を抽出する理論的枠組みを提案する。
その結果、分類と検出のベンチマークにまたがって結果が示され、シグモイドに基づく検出アーキテクチャの階層的学習の可能性が開かれた。
論文 参考訳(メタデータ) (2021-07-28T20:25:37Z) - Re-rank Coarse Classification with Local Region Enhanced Features for
Fine-Grained Image Recognition [22.83821575990778]
そこで我々は,Top1の精度を向上させるため,TopN分類結果を局所的に拡張した埋め込み機能を用いて再評価した。
より効果的なセマンティクスグローバル機能を学ぶために、我々は、自動構築された階層的カテゴリ構造上のマルチレベル損失をデザインする。
本手法は,cub-200-2011,stanford cars,fgvc aircraftの3つのベンチマークで最新性能を実現する。
論文 参考訳(メタデータ) (2021-02-19T11:30:25Z) - Grafit: Learning fine-grained image representations with coarse labels [114.17782143848315]
本稿では,学習ラベルの提供するものよりも細かな表現を学習する問題に対処する。
粗いラベルと下層の細粒度潜在空間を併用することにより、カテゴリレベルの検索手法の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2020-11-25T19:06:26Z) - Exploring the Hierarchy in Relation Labels for Scene Graph Generation [75.88758055269948]
提案手法は,Recall@50において,複数の最先端ベースラインを大きなマージン(最大33%の相対利得)で改善することができる。
実験により,提案手法により,最先端のベースラインを大きなマージンで改善できることが示された。
論文 参考訳(メタデータ) (2020-09-12T17:36:53Z) - Joint Visual and Temporal Consistency for Unsupervised Domain Adaptive
Person Re-Identification [64.37745443119942]
本稿では,局所的なワンホット分類とグローバルなマルチクラス分類を組み合わせることで,視覚的・時間的整合性を両立させる。
3つの大規模ReIDデータセットの実験結果は、教師なしと教師なしの両方のドメイン適応型ReIDタスクにおいて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2020-07-21T14:31:27Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z) - Self-Supervised Tuning for Few-Shot Segmentation [82.32143982269892]
Few-shotのセグメンテーションは、アノテートされたサンプルがほとんどない各画像ピクセルにカテゴリラベルを割り当てることを目的としている。
既存のメタラーニング手法では, 画像から抽出した視覚的特徴を埋め込み空間に埋め込むと, カテゴリー別識別記述子の生成に失敗する傾向にある。
本稿では,複数のエピソードにまたがる潜在特徴の分布を,自己分割方式に基づいて動的に調整する適応型フレームワークチューニングを提案する。
論文 参考訳(メタデータ) (2020-04-12T03:53:53Z) - Phase Consistent Ecological Domain Adaptation [76.75730500201536]
意味的セグメンテーション(意味的セグメンテーション)の課題に焦点をあてる。そこでは、注釈付き合成データが多用されるが、実際のデータへのアノテートは困難である。
視覚心理学に触発された最初の基準は、2つの画像領域間の地図が位相保存であることである。
第2の基準は、照明剤や撮像センサーの特性に関わらず、その画像に現れる環境統計、またはシーン内の規則を活用することを目的としている。
論文 参考訳(メタデータ) (2020-04-10T06:58:03Z) - Hierarchical Entity Typing via Multi-level Learning to Rank [38.509244927293715]
本稿では,学習と予測の両方において,存在論的構造を取り入れた階層的実体分類手法を提案する。
また,本学習では,正の正の正の型と正の正の正の型を比較した。
予測中、既に予測されている親タイプに基づいて、オントロジーの各レベルで実行可能な候補を制限する粗大なデコーダを定義する。
論文 参考訳(メタデータ) (2020-04-05T19:27:18Z) - Hierarchical Image Classification using Entailment Cone Embeddings [68.82490011036263]
まずラベル階層の知識を任意のCNNベースの分類器に注入する。
画像からの視覚的セマンティクスと組み合わせた外部セマンティクス情報の利用が全体的な性能を高めることを実証的に示す。
論文 参考訳(メタデータ) (2020-04-02T10:22:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。