Fugu-MT 論文翻訳(概要): Learning Hierarchical Semantic Classification by Grounding on Consistent Image Segmentations

論文の概要: Learning Hierarchical Semantic Classification by Grounding on Consistent Image Segmentations

arxiv url: http://arxiv.org/abs/2406.11608v1
Date: Mon, 17 Jun 2024 14:56:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 14:22:35.856950
Title: Learning Hierarchical Semantic Classification by Grounding on Consistent Image Segmentations
Title（参考訳）: 一貫性画像分割に基づくグラウンドリングによる階層的意味分類の学習
Authors: Seulki Park, Youren Zhang, Stella X. Yu, Sara Beery, Jonathan Huang,
Abstract要約: 階層的な意味分類は、単一の平坦な木ではなく、分類木を予測する必要がある。フラットレベル認識のための階層的セグメンテーションの学習に関する最近の研究に基づいて構築する。木パスKL分割損失を導入し,各レベルに一貫した正確な予測を行う。
参考スコア（独自算出の注目度）: 37.80849457554078
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Hierarchical semantic classification requires the prediction of a taxonomy tree instead of a single flat level of the tree, where both accuracies at individual levels and consistency across levels matter. We can train classifiers for individual levels, which has accuracy but not consistency, or we can train only the finest level classification and infer higher levels, which has consistency but not accuracy. Our key insight is that hierarchical recognition should not be treated as multi-task classification, as each level is essentially a different task and they would have to compromise with each other, but be grounded on image segmentations that are consistent across semantic granularities. Consistency can in fact improve accuracy. We build upon recent work on learning hierarchical segmentation for flat-level recognition, and extend it to hierarchical recognition. It naturally captures the intuition that fine-grained recognition requires fine image segmentation whereas coarse-grained recognition requires coarse segmentation; they can all be integrated into one recognition model that drives fine-to-coarse internal visual parsing.Additionally, we introduce a Tree-path KL Divergence loss to enforce consistent accurate predictions across levels. Our extensive experimentation and analysis demonstrate our significant gains on predicting an accurate and consistent taxonomy tree.
Abstract（参考訳）: 階層的セマンティック分類は、個々のレベルでの精度とレベル間の整合性の両方が重要となる、単一の平坦な木ではなく、分類木を予測する必要がある。精度は高いが整合性はない個別レベルの分類器を訓練したり、最高のレベル分類のみを訓練したり、高いレベルを推論することができる。私たちのキーとなる洞察は、階層的な認識はマルチタスクの分類として扱うべきではないということです。一貫性は実際に精度を向上させることができる。近年,フラットレベル認識のための階層的セグメンテーションの学習に取り組んでおり,階層的認識にまで拡張されている。きめ細かな認識には細かな画像のセグメンテーションが必要であるが、粗い認識には粗いセグメンテーションが必要であるという直感を自然に捉え、これらは全て、きめ細かな内部の視覚的パーシングを駆動する1つの認識モデルに統合することができる。我々の広範な実験と分析は、正確で一貫した分類木を予測する上で、我々の大きな利益を示している。

関連論文リスト

Dual-level Fuzzy Learning with Patch Guidance for Image Ordinal Regression [8.538034422744005]
通常の回帰は、オブジェクトを順序付けられたクラスに割り当てることで、回帰と分類を橋渡しする。現在のアプローチは、画像レベルの順序ラベルのみの可用性によって制限されている。本稿では,DFPG という名称の Patch Guidance フレームワークによる2段階ファジィ学習を提案する。
論文参考訳（メタデータ） (2025-05-09T07:01:14Z)
Harnessing Superclasses for Learning from Hierarchical Databases [1.835004446596942]
多くの大規模分類問題において、クラスは既知の階層に整理され、通常木として表される。この種の教師付き階層分類の損失について紹介する。提案手法では,クロスエントロピーの損失に比較して,計算コストの大幅な増大は伴わない。
論文参考訳（メタデータ） (2024-11-25T14:39:52Z)
TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary Multi-Label Classification of CLIP Without Training [29.431698321195814]
Contrastive Language-Image Pre-Training (CLIP) はオープン語彙分類において顕著な能力を示した。 CLIPは、グローバル機能が最も顕著なクラスに支配される傾向があるため、マルチラベルデータセットのパフォーマンスが低い。画像タグを得るための局所言語フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-20T08:15:40Z)
Semantic Guided Level-Category Hybrid Prediction Network for Hierarchical Image Classification [8.456482280676884]
階層分類(HC)は、各オブジェクトに階層構造にまとめられた複数のラベルを割り当てる。本稿では,そのレベルとカテゴリの予測をエンドツーエンドで共同で行うことのできる,セマンティックガイド付き階層型ハイブリッド予測ネットワーク(SGLCHPN)を提案する。
論文参考訳（メタデータ） (2022-11-22T13:49:10Z)
Hierarchical classification at multiple operating points [1.520694326234112]
階層内の各クラスにスコアを割り当てる任意のメソッドに対して,演算特性曲線を生成する効率的なアルゴリズムを提案する。 2つの新しい損失関数を提案し、構造的ヒンジ損失のソフトな変形が平坦なベースラインを大幅に上回ることを示す。
論文参考訳（メタデータ） (2022-10-19T23:36:16Z)
Weakly-supervised Action Localization via Hierarchical Mining [76.00021423700497]
弱教師付きアクションローカライゼーションは、ビデオレベルの分類ラベルだけで、与えられたビデオ内のアクションインスタンスを時間的にローカライズし、分類することを目的としている。ビデオレベルおよびスニペットレベルでの階層的マイニング戦略,すなわち階層的監視と階層的一貫性マイニングを提案する。我々は、HiM-NetがTHUMOS14とActivityNet1.3データセットの既存の手法よりも、階層的に監督と一貫性をマイニングすることで、大きなマージンを持つことを示す。
論文参考訳（メタデータ） (2022-06-22T12:19:09Z)
Deep Hierarchical Semantic Segmentation [76.40565872257709]
階層的セマンティックセマンティックセグメンテーション(HSS)は、クラス階層の観点で視覚的観察を構造化、ピクセル単位で記述することを目的としている。 HSSNは、HSSを画素単位のマルチラベル分類タスクとしてキャストし、現在のセグメンテーションモデルに最小限のアーキテクチャ変更をもたらすだけである。階層構造によって引き起こされるマージンの制約により、HSSNはピクセル埋め込み空間を再評価し、よく構造化されたピクセル表現を生成する。
論文参考訳（メタデータ） (2022-03-27T15:47:44Z)
United We Learn Better: Harvesting Learning Improvements From Class Hierarchies Across Tasks [9.687531080021813]
本稿では,確率と集合論に基づいて,親の予測と階層的損失を抽出する理論的枠組みを提案する。その結果、分類と検出のベンチマークにまたがって結果が示され、シグモイドに基づく検出アーキテクチャの階層的学習の可能性が開かれた。
論文参考訳（メタデータ） (2021-07-28T20:25:37Z)
Re-rank Coarse Classification with Local Region Enhanced Features for Fine-Grained Image Recognition [22.83821575990778]
そこで我々は,Top1の精度を向上させるため,TopN分類結果を局所的に拡張した埋め込み機能を用いて再評価した。より効果的なセマンティクスグローバル機能を学ぶために、我々は、自動構築された階層的カテゴリ構造上のマルチレベル損失をデザインする。本手法は,cub-200-2011,stanford cars,fgvc aircraftの3つのベンチマークで最新性能を実現する。
論文参考訳（メタデータ） (2021-02-19T11:30:25Z)
Grafit: Learning fine-grained image representations with coarse labels [114.17782143848315]
本稿では,学習ラベルの提供するものよりも細かな表現を学習する問題に対処する。粗いラベルと下層の細粒度潜在空間を併用することにより、カテゴリレベルの検索手法の精度を大幅に向上させる。
論文参考訳（メタデータ） (2020-11-25T19:06:26Z)
Exploring the Hierarchy in Relation Labels for Scene Graph Generation [75.88758055269948]
提案手法は,Recall@50において,複数の最先端ベースラインを大きなマージン(最大33%の相対利得)で改善することができる。実験により,提案手法により,最先端のベースラインを大きなマージンで改善できることが示された。
論文参考訳（メタデータ） (2020-09-12T17:36:53Z)
Joint Visual and Temporal Consistency for Unsupervised Domain Adaptive Person Re-Identification [64.37745443119942]
本稿では,局所的なワンホット分類とグローバルなマルチクラス分類を組み合わせることで,視覚的・時間的整合性を両立させる。 3つの大規模ReIDデータセットの実験結果は、教師なしと教師なしの両方のドメイン適応型ReIDタスクにおいて提案手法の優位性を示す。
論文参考訳（メタデータ） (2020-07-21T14:31:27Z)
Fine-Grained Visual Classification with Efficient End-to-end Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文参考訳（メタデータ） (2020-05-11T14:07:06Z)
Self-Supervised Tuning for Few-Shot Segmentation [82.32143982269892]
Few-shotのセグメンテーションは、アノテートされたサンプルがほとんどない各画像ピクセルにカテゴリラベルを割り当てることを目的としている。既存のメタラーニング手法では, 画像から抽出した視覚的特徴を埋め込み空間に埋め込むと, カテゴリー別識別記述子の生成に失敗する傾向にある。本稿では,複数のエピソードにまたがる潜在特徴の分布を,自己分割方式に基づいて動的に調整する適応型フレームワークチューニングを提案する。
論文参考訳（メタデータ） (2020-04-12T03:53:53Z)
Phase Consistent Ecological Domain Adaptation [76.75730500201536]
意味的セグメンテーション(意味的セグメンテーション)の課題に焦点をあてる。そこでは、注釈付き合成データが多用されるが、実際のデータへのアノテートは困難である。視覚心理学に触発された最初の基準は、2つの画像領域間の地図が位相保存であることである。第2の基準は、照明剤や撮像センサーの特性に関わらず、その画像に現れる環境統計、またはシーン内の規則を活用することを目的としている。
論文参考訳（メタデータ） (2020-04-10T06:58:03Z)
Hierarchical Entity Typing via Multi-level Learning to Rank [38.509244927293715]
本稿では,学習と予測の両方において,存在論的構造を取り入れた階層的実体分類手法を提案する。また,本学習では,正の正の正の型と正の正の正の型を比較した。予測中、既に予測されている親タイプに基づいて、オントロジーの各レベルで実行可能な候補を制限する粗大なデコーダを定義する。
論文参考訳（メタデータ） (2020-04-05T19:27:18Z)
Hierarchical Image Classification using Entailment Cone Embeddings [68.82490011036263]
まずラベル階層の知識を任意のCNNベースの分類器に注入する。画像からの視覚的セマンティクスと組み合わせた外部セマンティクス情報の利用が全体的な性能を高めることを実証的に示す。
論文参考訳（メタデータ） (2020-04-02T10:22:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。