論文の概要: Free-Grained Hierarchical Recognition
- arxiv url: http://arxiv.org/abs/2510.14737v1
- Date: Thu, 16 Oct 2025 14:35:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.900676
- Title: Free-Grained Hierarchical Recognition
- Title(参考訳): フリーグレード階層認識
- Authors: Seulki Park, Zilin Wang, Stella X. Yu,
- Abstract要約: 実世界の監督は、画質、注釈の専門知識、タスク要求に影響され、粒度が変化する。
我々は、認知にインスパイアされた基礎的、従属的、きめ細かいレベルに構造化された大規模なベンチマークであるImageNet-Fを紹介する。
セマンティックなあいまいさのプロキシとしてCLIPを用いることで、現実的な混合粒度ラベルをシミュレートする。
本研究では,視覚言語モデルからの擬似属性による意味指導と,半教師付き学習による視覚指導を行う手法を開発した。
- 参考スコア(独自算出の注目度): 32.11403864881941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical image classification predicts labels across a semantic taxonomy, but existing methods typically assume complete, fine-grained annotations, an assumption rarely met in practice. Real-world supervision varies in granularity, influenced by image quality, annotator expertise, and task demands; a distant bird may be labeled Bird, while a close-up reveals Bald eagle. We introduce ImageNet-F, a large-scale benchmark curated from ImageNet and structured into cognitively inspired basic, subordinate, and fine-grained levels. Using CLIP as a proxy for semantic ambiguity, we simulate realistic, mixed-granularity labels reflecting human annotation behavior. We propose free-grain learning, with heterogeneous supervision across instances. We develop methods that enhance semantic guidance via pseudo-attributes from vision-language models and visual guidance via semi-supervised learning. These, along with strong baselines, substantially improve performance under mixed supervision. Together, our benchmark and methods advance hierarchical classification under real-world constraints.
- Abstract(参考訳): 階層的な画像分類はセマンティック分類にまたがるラベルを予測するが、既存の手法は通常、完全にきめ細かいアノテーションを仮定する。
現実世界の監督は、画像の品質、注釈の専門知識、タスクの要求に影響され、遠くの鳥は鳥とラベル付けされ、クローズアップでバルドワシが明らかになる。
我々は、ImageNetからキュレーションされた大規模ベンチマークであるImageNet-Fを紹介し、認知にインスパイアされた基礎的、従属的、きめ細かいレベルに構造化する。
意味的あいまいさのプロキシとしてCLIPを用いることで、人間のアノテーションの振る舞いを反映した現実的で混合した粒度ラベルをシミュレートする。
本研究では,インスタンス間の異種性を考慮した自由粒度学習を提案する。
本研究では,視覚言語モデルからの擬似属性による意味指導と,半教師付き学習による視覚指導を行う手法を開発した。
これらは、強力なベースラインと共に、混在監督下での性能を大幅に向上させる。
我々のベンチマークと手法は、実世界の制約の下で階層的な分類を進める。
関連論文リスト
- Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model [52.01031460230826]
伝統的なアプローチは固定語彙と閉集合分類パラダイムに大きく依存している。
近年の研究では、大規模言語モデルと視覚言語モデル(VLM)を組み合わせることで、オープンセット認識が可能であることが実証されている。
そこで本研究では,精密な視覚認識のための最先端の手法であるEnriched-FineRを提案する。
論文 参考訳(メタデータ) (2025-07-30T20:06:01Z) - Visually Consistent Hierarchical Image Classification [37.80849457554078]
階層分類は、例えば、粗いレベルの"Bird"から中レベルの"Hummingbird"から、細かいレベルの"Green hermit"まで、複数の分類のレベルにまたがるラベルを予測する。
論文 参考訳(メタデータ) (2024-06-17T14:56:51Z) - CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes [93.71909293023663]
クロスモダリティ・アライテッド・プロトタイプ(CAPro)は、視覚表現を正しい意味論で学習する統合コントラスト学習フレームワークである。
CAProは、新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-15T07:20:22Z) - Semantic Contrastive Bootstrapping for Single-positive Multi-label
Recognition [36.3636416735057]
本研究では,意味的コントラスト型ブートストラップ法(Scob)を用いて,オブジェクト間の関係を徐々に回復する手法を提案する。
次に、アイコン的オブジェクトレベルの表現を抽出する再帰的セマンティックマスク変換器を提案する。
大規模な実験結果から,提案手法が最先端のモデルを超えていることが示唆された。
論文 参考訳(メタデータ) (2023-07-15T01:59:53Z) - Building a visual semantics aware object hierarchy [0.0]
視覚的意味論を意識したオブジェクト階層を構築するための新しい教師なし手法を提案する。
この論文の直感は、概念が階層的に組織化されている現実世界の知識表現から来ています。
評価は2つの部分から構成され、まず、構築された階層をオブジェクト認識タスクに適用し、その上で、視覚的階層と既存の語彙階層を比較して、提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-02-26T00:10:21Z) - Grafit: Learning fine-grained image representations with coarse labels [114.17782143848315]
本稿では,学習ラベルの提供するものよりも細かな表現を学習する問題に対処する。
粗いラベルと下層の細粒度潜在空間を併用することにより、カテゴリレベルの検索手法の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2020-11-25T19:06:26Z) - Can Semantic Labels Assist Self-Supervised Visual Representation
Learning? [194.1681088693248]
近隣環境におけるコントラスト調整(SCAN)という新しいアルゴリズムを提案する。
一連のダウンストリームタスクにおいて、SCANは従来の完全教師付きおよび自己教師付きメソッドよりも優れたパフォーマンスを達成する。
本研究は, セマンティックラベルが自己指導的手法の補助に有用であることを明らかにする。
論文 参考訳(メタデータ) (2020-11-17T13:25:00Z) - Hierarchical Image Classification using Entailment Cone Embeddings [68.82490011036263]
まずラベル階層の知識を任意のCNNベースの分類器に注入する。
画像からの視覚的セマンティクスと組み合わせた外部セマンティクス情報の利用が全体的な性能を高めることを実証的に示す。
論文 参考訳(メタデータ) (2020-04-02T10:22:02Z) - Learning Representations For Images With Hierarchical Labels [1.3579420996461438]
クラスラベルによって誘導されるセマンティック階層に関する情報を活用するための一連の手法を提案する。
画像からの視覚的セマンティクスと組み合わせた外部セマンティクス情報の提供により、全体的な性能が向上することを示す。
しかし,CNN分類器には階層的な情報が注入され,組込みベースモデルでは,新たに提示された実世界ETHエコロジーコレクションイメージデータセットの階層非依存モデルよりも優れていた。
論文 参考訳(メタデータ) (2020-04-02T09:56:03Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。