論文の概要: ExpNet: A unified network for Expert-Level Classification
- arxiv url: http://arxiv.org/abs/2211.15672v1
- Date: Tue, 29 Nov 2022 12:20:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 16:12:40.224738
- Title: ExpNet: A unified network for Expert-Level Classification
- Title(参考訳): ExpNet: エキスパートレベル分類のための統一ネットワーク
- Authors: Junde Wu, Huihui Fang, Yehui Yang, Yu Zhang, Haoyi Xiong, Huazhu Fu,
Yanwu Xu
- Abstract要約: 本稿では,エキスパートレベル分類におけるユニークな課題に,統一ネットワークを通じて対処する専門家ネットワーク(ExpNet)を提案する。
ExpNetでは、部分とコンテキストの特徴を階層的に分離し、Gaze-Shiftと呼ばれる新しい注意機構を使って個別に処理します。
本研究は、FGVC、疾患分類、アートワーク属性分類の3つの代表的な専門家レベル分類タスクについて、実験を行った。
- 参考スコア(独自算出の注目度): 40.109357254623085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Different from the general visual classification, some classification tasks
are more challenging as they need the professional categories of the images. In
the paper, we call them expert-level classification. Previous fine-grained
vision classification (FGVC) has made many efforts on some of its specific
sub-tasks. However, they are difficult to expand to the general cases which
rely on the comprehensive analysis of part-global correlation and the
hierarchical features interaction. In this paper, we propose Expert Network
(ExpNet) to address the unique challenges of expert-level classification
through a unified network. In ExpNet, we hierarchically decouple the part and
context features and individually process them using a novel attentive
mechanism, called Gaze-Shift. In each stage, Gaze-Shift produces a focal-part
feature for the subsequent abstraction and memorizes a context-related
embedding. Then we fuse the final focal embedding with all memorized
context-related embedding to make the prediction. Such an architecture realizes
the dual-track processing of partial and global information and hierarchical
feature interactions. We conduct the experiments over three representative
expert-level classification tasks: FGVC, disease classification, and artwork
attributes classification. In these experiments, superior performance of our
ExpNet is observed comparing to the state-of-the-arts in a wide range of
fields, indicating the effectiveness and generalization of our ExpNet. The code
will be made publicly available.
- Abstract(参考訳): 一般的な視覚分類とは異なり、画像の専門的な分類を必要とするため、いくつかの分類タスクは困難である。
論文では、専門家レベルの分類と呼ぶ。
従来の細粒度視覚分類(FGVC)は、いくつかの特定のサブタスクに多くの努力を払ってきた。
しかし,部分的相互相関と階層的特徴の相互作用の包括的分析に依存する一般的な事例に拡張することは困難である。
本稿では,統一ネットワークによるエキスパートレベルの分類のユニークな課題に対処するためのエキスパートネットワーク(expnet)を提案する。
ExpNetでは、部分とコンテキストの特徴を階層的に分離し、Gaze-Shiftと呼ばれる新しい注意機構を使って個別に処理します。
各ステージでは、視線シフトはその後の抽象化のために焦点部分機能を生成し、コンテキスト関連の埋め込みを記憶する。
そして、最後の焦点埋め込みを記憶されたコンテキスト関連埋め込みと融合して予測を行う。
このようなアーキテクチャは、部分的および大域的な情報と階層的特徴相互作用の二重トラック処理を実現する。
本研究は、FGVC、疾患分類、アートワーク属性分類の3つの代表的な専門家レベル分類タスクについて実験を行った。
これらの実験では,expnetの有効性と一般化の指標として,幅広い分野の最先端技術と比較し,expnetの優れた性能が観察された。
コードは公開される予定だ。
関連論文リスト
- A separability-based approach to quantifying generalization: which layer is best? [0.0]
未確認データへの一般化は、ディープラーニングの分類と基礎モデルではよく理解されていない。
サンプル領域を表すネットワークのキャパシティを評価するための新しい手法を提案する。
i) 高い分類精度は高い一般化可能性を示すものではなく、(ii) モデルの深い層が必ずしも最良を一般化するとは限らない。
論文 参考訳(メタデータ) (2024-05-02T17:54:35Z) - Improving Visual Recognition with Hyperbolical Visual Hierarchy Mapping [33.405667735101595]
我々は、事前訓練されたディープニューラルネットワーク(DNN)の構造的理解を高めるための視覚階層型マッパー(Hi-Mapper)を提案する。
Hi-Mapperは,1)確率密度のカプセル化による階層木の事前定義,2)新しい階層的コントラスト損失を伴う双曲空間における階層関係の学習により,視覚シーンの階層構造を解明する。
論文 参考訳(メタデータ) (2024-04-01T07:45:42Z) - AttrSeg: Open-Vocabulary Semantic Segmentation via Attribute
Decomposition-Aggregation [33.25304533086283]
オープンボキャブラリセマンティックセグメンテーションは、推論時に新しいオブジェクトカテゴリをセグメンテーションする必要がある難しいタスクである。
最近の研究では、この課題に対処するために視覚言語による事前訓練が検討されているが、現実的なシナリオでは非現実的な仮定に悩まされている。
本研究は,新しい概念を理解する上で,人間の認知に触発された新しい属性分解集約フレームワークであるAttrSegを提案する。
論文 参考訳(メタデータ) (2023-08-31T19:34:09Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Open-world Instance Segmentation: Top-down Learning with Bottom-up Supervision [83.57156368908836]
ボトムアップとトップダウンオープンワールド(UDOS)と呼ばれるオープンワールドのインスタンスセグメンテーションのための新しいアプローチを提案する。
UDOSはまず、ボトムアップセグメンテーションから弱い監督で訓練されたトップダウンネットワークを使用して、オブジェクトの一部を予測する。
UDOSは、トップダウンアーキテクチャのスピードと効率と、ボトムアップの監視からカテゴリを見落とせる能力の両方を享受しています。
論文 参考訳(メタデータ) (2023-03-09T18:55:03Z) - Association Graph Learning for Multi-Task Classification with Category
Shifts [68.58829338426712]
関連する分類タスクが同じラベル空間を共有し、同時に学習されるマルチタスク分類に焦点を当てる。
我々は、不足クラスのためのタスク間で知識を伝達する関連グラフを学習する。
我々の手法は代表的基準よりも一貫して性能が良い。
論文 参考訳(メタデータ) (2022-10-10T12:37:41Z) - Deep Hierarchical Semantic Segmentation [76.40565872257709]
階層的セマンティックセマンティックセグメンテーション(HSS)は、クラス階層の観点で視覚的観察を構造化、ピクセル単位で記述することを目的としている。
HSSNは、HSSを画素単位のマルチラベル分類タスクとしてキャストし、現在のセグメンテーションモデルに最小限のアーキテクチャ変更をもたらすだけである。
階層構造によって引き起こされるマージンの制約により、HSSNはピクセル埋め込み空間を再評価し、よく構造化されたピクセル表現を生成する。
論文 参考訳(メタデータ) (2022-03-27T15:47:44Z) - Visual Boundary Knowledge Translation for Foreground Segmentation [57.32522585756404]
視覚境界知識を明示的に考慮したモデルの構築を試みており、未確認カテゴリのセグメンテーションにおけるトレーニングの労力を減らそうとしている。
数十のラベル付きサンプルをガイダンスとして使うだけで、Trans-Netは完全な教師付きメソッドと同等のクローズな結果が得られる。
論文 参考訳(メタデータ) (2021-08-01T07:10:25Z) - Classification of Consumer Belief Statements From Social Media [0.0]
複雑な専門家アノテーションがいかにして分類に有効に活用できるかを考察する。
自動クラス抽象化アプローチは、テキスト分類タスクのドメインエキスパートベースラインに対して極めてよく機能することがわかった。
論文 参考訳(メタデータ) (2021-06-29T15:25:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。