論文の概要: MENTOR: Human Perception-Guided Pretraining for Increased Generalization
- arxiv url: http://arxiv.org/abs/2310.19545v2
- Date: Mon, 12 Feb 2024 17:04:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-02-13 21:57:10.713542
- Title: MENTOR: Human Perception-Guided Pretraining for Increased Generalization
- Title(参考訳): メンター: 一般化を促進するための人間の知覚誘導前訓練
- Authors: Colton R. Crum, Adam Czajka
- Abstract要約: MENTOR (huMan pErceptioN-guided preTraining fOr increased geneRalization) を紹介する。
我々は、クラスラベルを使わずに、入力された画像からヒトの唾液マップを学習するためにオートエンコーダを訓練する。
我々は、デコーダ部分を取り除き、エンコーダの上に分類層を追加し、従来の新しいモデルを微調整する。
- 参考スコア(独自算出の注目度): 5.596752018167751
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Incorporating human perception into training of convolutional neural networks
(CNN) has boosted generalization capabilities of such models in open-set
recognition tasks. One of the active research questions is where (in the model
architecture) and how to efficiently incorporate always-limited human
perceptual data into training strategies of models. In this paper, we introduce
MENTOR (huMan pErceptioN-guided preTraining fOr increased geneRalization),
which addresses this question through two unique rounds of training the CNNs
tasked with open-set anomaly detection. First, we train an autoencoder to learn
human saliency maps given an input image, without class labels. The autoencoder
is thus tasked with discovering domain-specific salient features which mimic
human perception. Second, we remove the decoder part, add a classification
layer on top of the encoder, and fine-tune this new model conventionally. We
show that MENTOR's benefits are twofold: (a) significant accuracy boost in
anomaly detection tasks (in this paper demonstrated for detection of unknown
iris presentation attacks, synthetically-generated faces, and anomalies in
chest X-ray images), compared to models utilizing conventional transfer
learning (e.g., sourcing the weights from ImageNet-pretrained models) as well
as to models trained with the state-of-the-art approach incorporating human
perception guidance into loss functions, and (b) an increase in the efficiency
of model training, requiring fewer epochs to converge compared to
state-of-the-art training methods.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)のトレーニングに人間の知覚を取り入れることで、オープンセット認識タスクにおけるそのようなモデルの一般化能力が向上した。
アクティブな研究課題の1つは、(モデルアーキテクチャにおいて)どこで、そしてモデルのトレーニング戦略に常に制限された人間の知覚データを効率的に組み込むかである。
本稿では、オープンセットの異常検出を行うCNNの2つの訓練ラウンドを通じて、この問題に対処するMENTOR(huMan pErceptioN-guided preTraining fOr increased geneRalization)を紹介する。
まず,オートエンコーダを訓練して,クラスラベルを使わずに,入力画像から人間の給与マップを学習する。
オートエンコーダは、人間の知覚を模倣するドメイン固有の有能な特徴を発見する。
次に、デコーダ部分を削除し、エンコーダの上に分類層を追加し、この新モデルを従来より微調整する。
MENTORの利点は2つあります。
(a) 異常検出タスクにおける精度向上(本論文では、従来の移動学習を利用したモデル(例えば、ImageNet-pretrained modelからの重みの抽出)や、人間の知覚誘導を損失関数に組み込んだ最先端アプローチで訓練されたモデルと比較して、未知の虹彩提示攻撃、合成顔、胸部X線画像の異常の検出を実証する。
b) モデルトレーニングの効率が向上し, 最先端の訓練方法に比べて収束するエポックが少なくなる。
関連論文リスト
- Effort: Efficient Orthogonal Modeling for Generalizable AI-Generated Image Detection [66.16595174895802]
既存のAI生成画像(AIGI)検出手法は、しばしば限定的な一般化性能に悩まされる。
本稿では、AIGI検出において、これまで見過ごされてきた重要な非対称性現象を同定する。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - Training Better Deep Learning Models Using Human Saliency [11.295653130022156]
本研究では、画像の正常領域に関する人間の判断が、ディープ畳み込みニューラルネットワーク(DCNN)トレーニングにどのように導入できるかを考察する。
本稿では,ConveYs Brain Oversight to raise Generalization (CYBORG) における損失関数の新たな構成要素を提案する。
論文 参考訳(メタデータ) (2024-10-21T16:52:44Z) - Activate and Reject: Towards Safe Domain Generalization under Category
Shift [71.95548187205736]
カテゴリーシフト(DGCS)下における領域一般化の実践的問題について検討する。
未知のクラスサンプルを同時に検出し、ターゲットドメイン内の既知のクラスサンプルを分類することを目的としている。
従来のDGと比較すると,1)ソースクラスのみを用いたトレーニングにおいて,未知の概念を学習する方法,2)ソーストレーニングされたモデルを未知の環境に適応する方法,の2つの新しい課題に直面している。
論文 参考訳(メタデータ) (2023-10-07T07:53:12Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Reconciliation of Pre-trained Models and Prototypical Neural Networks in
Few-shot Named Entity Recognition [35.34238362639678]
本研究では,このようなミスマッチを経験的・理論的根拠と整合させる一線符号正規化法を提案する。
我々の研究は、数発のエンティティ認識における一般的な問題に対処するための分析的な視点も提供します。
論文 参考訳(メタデータ) (2022-11-07T02:33:45Z) - ProFormer: Learning Data-efficient Representations of Body Movement with
Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。
我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。
私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文 参考訳(メタデータ) (2022-02-23T11:11:54Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - With Greater Distance Comes Worse Performance: On the Perspective of
Layer Utilization and Model Generalization [3.6321778403619285]
ディープニューラルネットワークの一般化は、マシンラーニングにおける主要なオープンな問題の1つだ。
初期のレイヤは一般的に、トレーニングデータとテストデータの両方のパフォーマンスに関する表現を学びます。
より深いレイヤは、トレーニングのリスクを最小限に抑え、テストや不正なラベル付けされたデータとうまく連携できない。
論文 参考訳(メタデータ) (2022-01-28T05:26:32Z) - CYBORG: Blending Human Saliency Into the Loss Improves Deep Learning [5.092711491848192]
本稿では,脳の一般性を高めるための初となるトレーニング戦略を提案する。
新しいトレーニングアプローチでは、人間の注釈付き唾液マップをCYBORG損失関数に組み込む。
合成顔検出作業の結果,CYBORG損失は,GAN(Generative Adversarial Networks)6つの顔画像から生成した複数の分類ネットワークアーキテクチャから生成した未知のサンプルに対して,顕著な性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2021-12-01T18:04:15Z) - Deepfake Forensics via An Adversarial Game [99.84099103679816]
顔偽造と画像・映像品質の両面での一般化能力向上のための対人訓練を提唱する。
AIベースの顔操作は、しばしば、一般化が困難であるモデルによって容易に発見できる高周波アーティファクトにつながることを考慮し、これらの特定のアーティファクトを曖昧にしようとする新しい逆トレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-03-25T02:20:08Z) - A Neuro-Inspired Autoencoding Defense Against Adversarial Perturbations [11.334887948796611]
ディープニューラルネットワーク(DNN)は敵の攻撃に対して脆弱である。
現在の最も効果的な防御策は、敵に摂動された例を使ってネットワークを訓練することである。
本稿では,神経に誘発される防御機構について検討する。
論文 参考訳(メタデータ) (2020-11-21T21:03:08Z) - Adversarially-Trained Deep Nets Transfer Better: Illustration on Image
Classification [53.735029033681435]
トランスファーラーニングは、訓練済みのディープニューラルネットワークを画像認識タスクに新しいドメインに適用するための強力な方法論である。
本研究では,非逆学習モデルよりも逆学習モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-07-11T22:48:42Z) - Complex Human Action Recognition in Live Videos Using Hybrid FR-DL
Method [1.027974860479791]
入力シーケンス中の代表フレームの自動選択により,前処理フェーズの課題に対処する。
本稿では,バックグラウンドサブトラクションとHOGを用いたハイブリッド手法を提案し,続いて深層ニューラルネットワークと骨格モデリング手法を適用した。
本稿では,このモデルをFR-DL(Feature Reduction & Deep Learning based action recognition method)と呼ぶ。
論文 参考訳(メタデータ) (2020-07-06T15:12:50Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。