論文の概要: Knowledge distillation to effectively attain both region-of-interest and global semantics from an image where multiple objects appear
- arxiv url: http://arxiv.org/abs/2407.08257v1
- Date: Thu, 11 Jul 2024 07:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 18:29:17.033296
- Title: Knowledge distillation to effectively attain both region-of-interest and global semantics from an image where multiple objects appear
- Title(参考訳): 複数の物体が現れる画像から興味領域と大域的意味論を効果的に獲得するための知識蒸留
- Authors: Seonwhee Jin,
- Abstract要約: オブジェクト検出タスクでは、食品のほとんど無限のカテゴリを正確にローカライズし、分類するのは難しい。
我々は、ROI、外ROI、統合モジュールからなる新しいタイプの複合アーキテクチャRveRNetを紹介します。
RveRNetのF1スコアは、曖昧な食品画像の分類において、他の個々のモデルよりも10%良かった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Models based on convolutional neural networks (CNN) and transformers have steadily been improved. They also have been applied in various computer vision downstream tasks. However, in object detection tasks, accurately localizing and classifying almost infinite categories of foods in images remains challenging. To address these problems, we first segmented the food as the region-of-interest (ROI) by using the segment-anything model (SAM) and masked the rest of the region except ROI as black pixels. This process simplified the problems into a single classification for which annotation and training were much simpler than object detection. The images in which only the ROI was preserved were fed as inputs to fine-tune various off-the-shelf models that encoded their own inductive biases. Among them, Data-efficient image Transformers (DeiTs) had the best classification performance. Nonetheless, when foods' shapes and textures were similar, the contextual features of the ROI-only images were not enough for accurate classification. Therefore, we introduced a novel type of combined architecture, RveRNet, which consisted of ROI, extra-ROI, and integration modules that allowed it to account for both the ROI's and global contexts. The RveRNet's F1 score was 10% better than other individual models when classifying ambiguous food images. If the RveRNet's modules were DeiT with the knowledge distillation from the CNN, performed the best. We investigated how architectures can be made robust against input noise caused by permutation and translocation. The results indicated that there was a trade-off between how much the CNN teacher's knowledge could be distilled to DeiT and DeiT's innate strength. Code is publicly available at: https://github.com/Seonwhee-Genome/RveRNet.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)とトランスフォーマーに基づくモデルは着実に改善されている。
また、様々なコンピュータビジョンの下流タスクにも適用されている。
しかし、物体検出タスクでは、画像中の食品のほとんど無限のカテゴリを正確に位置決めし分類することは困難である。
これらの問題に対処するために、私たちはまず、セグメンテーションモデル(SAM)を用いて、食品を関心領域(ROI)として分割し、ROI以外の領域を黒ピクセルとして隠蔽した。
このプロセスは問題を1つの分類に単純化し、アノテーションとトレーニングはオブジェクト検出よりもはるかにシンプルになった。
ROIのみを保存した画像は、インダクティブバイアスを符号化した様々なオフザシェルフモデルを微調整するための入力として入力された。
中でも,データ効率の高い画像変換器(DeiTs)が最も優れた分類性能を示した。
それにもかかわらず、食品の形状や食感が類似する場合、ROIのみの画像の文脈的特徴は正確な分類には不十分であった。
そのため、ROI、外ROI、統合モジュールで構成される新しいタイプの複合アーキテクチャであるRveRNetを導入し、ROIとグローバルコンテキストの両方を説明できるようにしました。
RveRNetのF1スコアは、曖昧な食品画像の分類において、他の個々のモデルよりも10%良かった。
RveRNetのモジュールがCNNの知識蒸留のDeiTであるなら、最善を尽くした。
提案手法は, 置換や転位による入力雑音に対して, 構造を頑健にする方法について検討した。
結果は、CNN教師の知識がDeiTとDeiTの生来の強さにどれだけ蒸留できるかというトレードオフがあることを示唆した。
コードはhttps://github.com/Seonwhee-Genome/RveRNet.comで公開されている。
関連論文リスト
- T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - TopicFM: Robust and Interpretable Feature Matching with Topic-assisted [8.314830611853168]
本稿では,効率,堅牢,解釈可能な画像マッチングアーキテクチャを提案する。
TopicFMと呼ばれる新しい特徴マッチングモジュールを導入し、画像間で同じ空間構造をトピックに大まかに整理する。
提案手法は,計算量を削減するために,共可視領域でのみマッチングを行うことができる。
論文 参考訳(メタデータ) (2022-07-01T10:39:14Z) - Adaptive Convolutional Dictionary Network for CT Metal Artifact
Reduction [62.691996239590125]
本稿では,金属人工物削減のための適応畳み込み辞書ネットワーク(ACDNet)を提案する。
我々のACDNetは、トレーニングデータを介して、アーティファクトフリーCT画像の事前を自動で学習し、入力されたCT画像ごとに表現カーネルを適応的に調整することができる。
本手法は,モデルに基づく手法の明確な解釈可能性を継承し,学習に基づく手法の強力な表現能力を維持する。
論文 参考訳(メタデータ) (2022-05-16T06:49:36Z) - Background Invariant Classification on Infrared Imagery by Data
Efficient Training and Reducing Bias in CNNs [1.2891210250935146]
畳み込みニューラルネットワークは 画像中の物体を 正確に分類できます
ネットワークの注意が常にシーンのセマンティックな重要な領域にあるとは限らないことはよく知られている。
我々は、赤外線画像とRGBデータの両方におけるCNNのバイアスを低減するために、textitsplit trainingと呼ばれる2段階のトレーニング手順を提案する。
論文 参考訳(メタデータ) (2022-01-22T23:29:42Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z) - Wise-SrNet: A Novel Architecture for Enhancing Image Classification by
Learning Spatial Resolution of Feature Maps [0.5892638927736115]
畳み込みニューラルネットワークの進歩による大きな課題の1つは、抽出した特徴マップを最終分類層に接続する方法である。
本稿では,GAP層をWise-SrNetと呼ばれる新しいアーキテクチャに置き換えることで,この問題に対処する。
奥行きの畳み込みのアイデアにインスパイアされ、計算コストを増大させることなく空間分解能を処理するように設計されている。
論文 参考訳(メタデータ) (2021-04-26T00:37:11Z) - MOGAN: Morphologic-structure-aware Generative Learning from a Single
Image [59.59698650663925]
近年,1つの画像のみに基づく生成モデルによる完全学習が提案されている。
多様な外観のランダムなサンプルを生成するMOGANというMOrphologic-structure-aware Generative Adversarial Networkを紹介します。
合理的な構造の維持や外観の変化など、内部機能に重点を置いています。
論文 参考訳(メタデータ) (2021-03-04T12:45:23Z) - An Efficient Framework for Zero-Shot Sketch-Based Image Retrieval [36.254157442709264]
ゼロショットのSketchベースのImage Retrieval (ZS-SBIR)は、現実のアプリケーションであるため、コンピュータビジョンコミュニティの注目を集めている。
ZS-SBIRは、コンテンツベースの画像検索(CBIR)、ゼロショット学習、ドメイン適応など、複数のコンピュータビジョン問題の主な課題を継承する。
論文 参考訳(メタデータ) (2021-02-08T06:10:37Z) - What Does CNN Shift Invariance Look Like? A Visualization Study [87.79405274610681]
畳み込みニューラルネットワーク(CNN)による特徴抽出は、機械学習タスクの画像を表現する一般的な方法である。
我々は,一般的な市販CNNモデルから抽出した特徴量の変動を計測し,可視化することに注力する。
人気ネットワークから抽出された特徴はグローバルに不変ではなく,この分散の中にバイアスやアーティファクトが存在すると結論付けている。
論文 参考訳(メタデータ) (2020-11-09T01:16:30Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。