論文の概要: L-WISE: Boosting Human Image Category Learning Through Model-Based Image Selection And Enhancement
- arxiv url: http://arxiv.org/abs/2412.09765v1
- Date: Thu, 12 Dec 2024 23:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:02:00.405512
- Title: L-WISE: Boosting Human Image Category Learning Through Model-Based Image Selection And Enhancement
- Title(参考訳): L-WISE:モデルに基づく画像選択と強化による人間の画像カテゴリー学習の促進
- Authors: Morgan B. Talbot, Gabriel Kreiman, James J. DiCarlo, Guy Gaziv,
- Abstract要約: 本研究では,人間の視覚的学習を,テスト時に人間の分類精度を向上させる方法で強化することを提案する。
学習強化手法は, モデル推定による認識困難度に基づく画像選択と, (ii) 初心者の認識を支援する画像摂動を用いて構成する。
我々の知る限りでは、ANNがカテゴリー特化機能を強化して人間の視覚学習能力を高めるのはこれが初めてである。
- 参考スコア(独自算出の注目度): 12.524893323311108
- License:
- Abstract: The currently leading artificial neural network (ANN) models of the visual ventral stream -- which are derived from a combination of performance optimization and robustification methods -- have demonstrated a remarkable degree of behavioral alignment with humans on visual categorization tasks. Extending upon previous work, we show that not only can these models guide image perturbations that change the induced human category percepts, but they also can enhance human ability to accurately report the original ground truth. Furthermore, we find that the same models can also be used out-of-the-box to predict the proportion of correct human responses to individual images, providing a simple, human-aligned estimator of the relative difficulty of each image. Motivated by these observations, we propose to augment visual learning in humans in a way that improves human categorization accuracy at test time. Our learning augmentation approach consists of (i) selecting images based on their model-estimated recognition difficulty, and (ii) using image perturbations that aid recognition for novice learners. We find that combining these model-based strategies gives rise to test-time categorization accuracy gains of 33-72% relative to control subjects without these interventions, despite using the same number of training feedback trials. Surprisingly, beyond the accuracy gain, the training time for the augmented learning group was also shorter by 20-23%. We demonstrate the efficacy of our approach in a fine-grained categorization task with natural images, as well as tasks in two clinically relevant image domains -- histology and dermoscopy -- where visual learning is notoriously challenging. To the best of our knowledge, this is the first application of ANNs to increase visual learning performance in humans by enhancing category-specific features.
- Abstract(参考訳): 現在最先端の人工ニューラルネットワーク(ANN)モデルでは、パフォーマンス最適化とロバスト化手法の組み合わせから派生した、視覚的分類タスクにおける人間との行動アライメントが顕著に示されている。
過去の研究を拡張して、これらのモデルが、誘導されたヒトのカテゴリの知覚を変えるイメージ摂動をガイドできるだけでなく、元の地上の真実を正確に報告する能力を高めることも示している。
さらに,各画像の相対的難易度を簡易に推定し,各画像に対する正解率を予測するために,同じモデルが最初から利用できることも見いだした。
これらの観察により、テスト時の人間の分類精度を向上させる方法として、人間の視覚学習を強化することを提案する。
私たちの学習強化アプローチは
一 モデル推定認識困難度に基づく画像の選択、及び
(II)初級学習者の認識を支援する画像摂動を用いた。
これらのモデルに基づく戦略を組み合わせることで、同じ数のトレーニングフィードバック試験を用いても、制御対象に対して、制御対象に対して、テスト時の分類精度が33~72%向上することがわかった。
驚くべきことに、精度の向上を超えて、強化学習群のトレーニング時間も20~23%短縮された。
自然画像を用いたきめ細かい分類タスクや、視覚学習が困難な2つの臨床画像領域(組織学と皮膚内視鏡)でのタスクにおいて、我々のアプローチの有効性を実証する。
我々の知る限りでは、ANNがカテゴリー特化機能を強化して人間の視覚学習能力を高めるのはこれが初めてである。
関連論文リスト
- Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - MENTOR: Human Perception-Guided Pretraining for Increased Generalization [5.596752018167751]
MENTOR (huMan pErceptioN-guided preTraining fOr increased geneRalization) を紹介する。
我々は、クラスラベルを使わずに、入力された画像からヒトの唾液マップを学習するためにオートエンコーダを訓練する。
我々は、デコーダ部分を取り除き、エンコーダの上に分類層を追加し、従来の新しいモデルを微調整する。
論文 参考訳(メタデータ) (2023-10-30T13:50:44Z) - Exploring the Robustness of Human Parsers Towards Common Corruptions [99.89886010550836]
我々は,LIP-C,ATR-C,Pascal-Person-Part-Cという3つの汚職堅牢性ベンチマークを構築し,人間の解析モデルのリスク許容度を評価する。
データ強化戦略に触発されて、一般に破損した条件下で頑健性を高めるための新しい異種強化機構を提案する。
論文 参考訳(メタデータ) (2023-09-02T13:32:14Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - DASH: Visual Analytics for Debiasing Image Classification via
User-Driven Synthetic Data Augmentation [27.780618650580923]
画像分類モデルは、訓練データにおいて、入力特徴と出力クラスとの間の無関係な共起に基づいてクラスを予測することをしばしば学習する。
我々は、望ましくない相関を「データバイアス」と呼び、データバイアスを引き起こす視覚的特徴を「バイアス要因」と呼んでいる。
人間の介入なしにバイアスを自動的に識別し緩和することは困難である。
論文 参考訳(メタデータ) (2022-09-14T00:44:41Z) - Conformer and Blind Noisy Students for Improved Image Quality Assessment [80.57006406834466]
知覚品質評価(IQA)のための学習ベースアプローチは、通常、知覚品質を正確に測定するために歪んだ画像と参照画像の両方を必要とする。
本研究では,変換器を用いた全参照IQAモデルの性能について検討する。
また,全教師モデルから盲人学生モデルへの半教師付き知識蒸留に基づくIQAの手法を提案する。
論文 参考訳(メタデータ) (2022-04-27T10:21:08Z) - Focus on the Positives: Self-Supervised Learning for Biodiversity
Monitoring [9.086207853136054]
ラベルのない画像コレクションから自己教師付き表現を学習する問題に対処する。
我々は,入力画像間の空間的関係や時間的関係などの情報を符号化する,手軽に利用可能なコンテキストデータを利用する。
地球生物多様性監視の重要課題として、人間の監督が限定された視覚的種分類タスクに適応可能な画像特徴があげられる。
論文 参考訳(メタデータ) (2021-08-14T01:12:41Z) - Passive attention in artificial neural networks predicts human visual
selectivity [8.50463394182796]
受動的注意法は人間の視覚的選択性の推定と大きく重なることを示す。
認識実験を用いて,これらの相関関係を因果操作で検証した。
この研究は、人間の視覚のモデルとして、主要なANNの生物学的および心理的妥当性を評価するための新しいアプローチに寄与する。
論文 参考訳(メタデータ) (2021-07-14T21:21:48Z) - On the Robustness of Pretraining and Self-Supervision for a Deep
Learning-based Analysis of Diabetic Retinopathy [70.71457102672545]
糖尿病網膜症における訓練方法の違いによる影響を比較検討した。
本稿では,定量的性能,学習した特徴表現の統計,解釈可能性,画像歪みに対する頑健性など,さまざまな側面について検討する。
以上の結果から,ImageNet事前学習モデルでは,画像歪みに対する性能,一般化,堅牢性が著しく向上していることが示唆された。
論文 参考訳(メタデータ) (2021-06-25T08:32:45Z) - Fooling the primate brain with minimal, targeted image manipulation [67.78919304747498]
本稿では、行動に反映される神経活動と知覚の両方の変化をもたらす、最小限の標的画像摂動を生成するための一連の手法を提案する。
我々の研究は、敵対的攻撃、すなわち最小限のターゲットノイズによる画像の操作で同じ目標を共有し、ANNモデルに画像の誤分類を誘導する。
論文 参考訳(メタデータ) (2020-11-11T08:30:54Z) - Seeing eye-to-eye? A comparison of object recognition performance in
humans and deep convolutional neural networks under image manipulation [0.0]
本研究では,ヒトとフィードフォワードニューラルネットワークの視覚コア物体認識性能の行動比較を目的とした。
精度分析の結果、人間はDCNNを全ての条件で上回るだけでなく、形状や色の変化に対する強い堅牢性も示している。
論文 参考訳(メタデータ) (2020-07-13T10:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。