論文の概要: MENTOR: Human Perception-Guided Pretraining for Increased Generalization
- arxiv url: http://arxiv.org/abs/2310.19545v3
- Date: Sat, 26 Apr 2025 00:18:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:51.564734
- Title: MENTOR: Human Perception-Guided Pretraining for Increased Generalization
- Title(参考訳): MENTOR: 一般化促進のための人間の知覚ガイドによる事前訓練
- Authors: Colton R. Crum, Adam Czajka,
- Abstract要約: 畳み込みニューラルネットワーク(CNN)のトレーニングに人間の知覚を活用することで、オープンセット認識タスクにおけるそのようなモデルの一般化能力が向上した。
本稿では,オープンセットの異常検出を行うCNNの2つの訓練ラウンドを通じて,この問題に対処するMENTORを紹介する。
MENTORは3つの異なるCNNバックボーンにまたがる一般化性能を,様々な異常検出タスクで向上させることを示す。
- 参考スコア(独自算出の注目度): 4.737519767218666
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Leveraging human perception into training of convolutional neural networks (CNN) has boosted generalization capabilities of such models in open-set recognition tasks. One of the active research questions is where (in the model architecture or training pipeline) and how to efficiently incorporate always limited human perceptual data into training strategies of models. In this paper, we introduce MENTOR (huMan pErceptioN-guided preTraining fOr increased geneRalization), which addresses this question through two unique rounds of training CNNs tasked with open-set anomaly detection. First, we train an autoencoder to learn human saliency maps given an input image, without any class labels. The autoencoder is thus tasked with discovering domain-specific salient features which mimic human perception. Second, we remove the decoder part, add a classification layer on top of the encoder, and train this new model conventionally, now using class labels. We show that MENTOR successfully raises the generalization performance across three different CNN backbones in a variety of anomaly detection tasks (demonstrated for detection of unknown iris presentation attacks, synthetically-generated faces, and anomalies in chest X-ray images) compared to traditional pretraining methods (e.g., sourcing the weights from ImageNet), and as well as state-of-the-art methods that incorporate human perception guidance into training. In addition, we demonstrate that MENTOR can be flexibly applied to existing human perception-guided methods and subsequently increasing their generalization with no architectural modifications.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)のトレーニングに人間の知覚を活用することで、オープンセットの認識タスクにおけるそのようなモデルの一般化能力が向上した。
活発な研究課題の1つは、(モデルアーキテクチャやトレーニングパイプラインにおいて)どこで、常に制限された人間の知覚データをモデルのトレーニング戦略に効率的に組み込むかである。
本稿では、オープンセット異常検出を行うCNNの2つの訓練ラウンドを通じて、この問題に対処するMENTOR(huMan pErceptioN-guided preTraining fOr increased geneRalization)を紹介する。
まず、オートエンコーダを訓練し、クラスラベルを使わずに入力された画像からヒトの唾液マップを学習する。
オートエンコーダは、人間の知覚を模倣するドメイン固有の有能な特徴を発見する。
第二に、デコーダ部分を取り除き、エンコーダの上に分類層を追加し、クラスラベルを使って、従来の新しいモデルをトレーニングします。
本研究では,従来の事前訓練法(例えば,ImageNetから重みを抽出するなど)や,人間の知覚指導を訓練に取り入れた最先端の手法と比較して,さまざまな異常検出タスク(アイリス提示攻撃,合成顔,胸部X線画像異常の検出のための実証)において,MENTORが3種類のCNNバックボーン間の一般化性能の向上に成功していることを示す。
さらに,既存の人間の知覚誘導手法に柔軟に適用できることを示すとともに,アーキテクチャ変更を伴わずに一般化を促進できることを示す。
関連論文リスト
- Effort: Efficient Orthogonal Modeling for Generalizable AI-Generated Image Detection [66.16595174895802]
既存のAI生成画像(AIGI)検出手法は、しばしば限定的な一般化性能に悩まされる。
本稿では、AIGI検出において、これまで見過ごされてきた重要な非対称性現象を同定する。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - Training Better Deep Learning Models Using Human Saliency [11.295653130022156]
本研究では、画像の正常領域に関する人間の判断が、ディープ畳み込みニューラルネットワーク(DCNN)トレーニングにどのように導入できるかを考察する。
本稿では,ConveYs Brain Oversight to raise Generalization (CYBORG) における損失関数の新たな構成要素を提案する。
論文 参考訳(メタデータ) (2024-10-21T16:52:44Z) - Activate and Reject: Towards Safe Domain Generalization under Category
Shift [71.95548187205736]
カテゴリーシフト(DGCS)下における領域一般化の実践的問題について検討する。
未知のクラスサンプルを同時に検出し、ターゲットドメイン内の既知のクラスサンプルを分類することを目的としている。
従来のDGと比較すると,1)ソースクラスのみを用いたトレーニングにおいて,未知の概念を学習する方法,2)ソーストレーニングされたモデルを未知の環境に適応する方法,の2つの新しい課題に直面している。
論文 参考訳(メタデータ) (2023-10-07T07:53:12Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Reconciliation of Pre-trained Models and Prototypical Neural Networks in
Few-shot Named Entity Recognition [35.34238362639678]
本研究では,このようなミスマッチを経験的・理論的根拠と整合させる一線符号正規化法を提案する。
我々の研究は、数発のエンティティ認識における一般的な問題に対処するための分析的な視点も提供します。
論文 参考訳(メタデータ) (2022-11-07T02:33:45Z) - ProFormer: Learning Data-efficient Representations of Body Movement with
Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。
我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。
私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文 参考訳(メタデータ) (2022-02-23T11:11:54Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - With Greater Distance Comes Worse Performance: On the Perspective of
Layer Utilization and Model Generalization [3.6321778403619285]
ディープニューラルネットワークの一般化は、マシンラーニングにおける主要なオープンな問題の1つだ。
初期のレイヤは一般的に、トレーニングデータとテストデータの両方のパフォーマンスに関する表現を学びます。
より深いレイヤは、トレーニングのリスクを最小限に抑え、テストや不正なラベル付けされたデータとうまく連携できない。
論文 参考訳(メタデータ) (2022-01-28T05:26:32Z) - CYBORG: Blending Human Saliency Into the Loss Improves Deep Learning [5.092711491848192]
本稿では,脳の一般性を高めるための初となるトレーニング戦略を提案する。
新しいトレーニングアプローチでは、人間の注釈付き唾液マップをCYBORG損失関数に組み込む。
合成顔検出作業の結果,CYBORG損失は,GAN(Generative Adversarial Networks)6つの顔画像から生成した複数の分類ネットワークアーキテクチャから生成した未知のサンプルに対して,顕著な性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2021-12-01T18:04:15Z) - Deepfake Forensics via An Adversarial Game [99.84099103679816]
顔偽造と画像・映像品質の両面での一般化能力向上のための対人訓練を提唱する。
AIベースの顔操作は、しばしば、一般化が困難であるモデルによって容易に発見できる高周波アーティファクトにつながることを考慮し、これらの特定のアーティファクトを曖昧にしようとする新しい逆トレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-03-25T02:20:08Z) - A Neuro-Inspired Autoencoding Defense Against Adversarial Perturbations [11.334887948796611]
ディープニューラルネットワーク(DNN)は敵の攻撃に対して脆弱である。
現在の最も効果的な防御策は、敵に摂動された例を使ってネットワークを訓練することである。
本稿では,神経に誘発される防御機構について検討する。
論文 参考訳(メタデータ) (2020-11-21T21:03:08Z) - Adversarially-Trained Deep Nets Transfer Better: Illustration on Image
Classification [53.735029033681435]
トランスファーラーニングは、訓練済みのディープニューラルネットワークを画像認識タスクに新しいドメインに適用するための強力な方法論である。
本研究では,非逆学習モデルよりも逆学習モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-07-11T22:48:42Z) - Complex Human Action Recognition in Live Videos Using Hybrid FR-DL
Method [1.027974860479791]
入力シーケンス中の代表フレームの自動選択により,前処理フェーズの課題に対処する。
本稿では,バックグラウンドサブトラクションとHOGを用いたハイブリッド手法を提案し,続いて深層ニューラルネットワークと骨格モデリング手法を適用した。
本稿では,このモデルをFR-DL(Feature Reduction & Deep Learning based action recognition method)と呼ぶ。
論文 参考訳(メタデータ) (2020-07-06T15:12:50Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。