論文の概要: Visual Knowledge Tracing
- arxiv url: http://arxiv.org/abs/2207.10157v2
- Date: Fri, 22 Jul 2022 00:28:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 09:14:30.462822
- Title: Visual Knowledge Tracing
- Title(参考訳): 視覚的知識追跡
- Authors: Neehar Kondapaneni, Pietro Perona, Oisin Mac Aodha
- Abstract要約: 本稿では,人間の学習者の進化的分類行動を追跡する新しい課題を提案する。
本研究では,学習者が使用する視覚的特徴を協調的に抽出し,活用する分類機能を予測するモデルを提案する。
以上の結果から,我々の反復モデルでは,3つの課題のある医療画像と種識別タスクに基づいて,人間の学習者の分類行動を予測することが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 26.446317829793454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Each year, thousands of people learn new visual categorization tasks --
radiologists learn to recognize tumors, birdwatchers learn to distinguish
similar species, and crowd workers learn how to annotate valuable data for
applications like autonomous driving. As humans learn, their brain updates the
visual features it extracts and attend to, which ultimately informs their final
classification decisions. In this work, we propose a novel task of tracing the
evolving classification behavior of human learners as they engage in
challenging visual classification tasks. We propose models that jointly extract
the visual features used by learners as well as predicting the classification
functions they utilize. We collect three challenging new datasets from real
human learners in order to evaluate the performance of different visual
knowledge tracing methods. Our results show that our recurrent models are able
to predict the classification behavior of human learners on three challenging
medical image and species identification tasks.
- Abstract(参考訳): 放射線科医は腫瘍を認識することを学び、バードウォッチャーは類似種を区別することを学び、群集労働者は自動運転のようなアプリケーションのための貴重なデータに注釈をつける方法を学ぶ。
人間が学習すると、脳は抽出した視覚機能を更新し、最終的に最終的な分類決定を知らせる。
本研究では,視覚分類課題に挑戦しながら,人間の学習者の分類行動の進化を追跡する新たな課題を提案する。
本研究では,学習者の視覚特徴を共同で抽出し,活用する分類関数の予測を行うモデルを提案する。
異なる視覚知識追跡手法の性能を評価するために,実際の人間学習者から挑戦的な3つのデータセットを収集した。
その結果,本モデルでは3つの難解な医用画像と種識別課題において,人間学習者の分類行動を予測することができた。
関連論文リスト
- Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Wills Aligner: A Robust Multi-Subject Brain Representation Learner [19.538200208523467]
本稿では,頑健な多目的脳表現学習者であるWills Alignerを紹介する。
ウィルズ・アリグナーは最初、解剖学的レベルで異なる被験者の脳を調整した。
個々の認知パターンを学習するために、脳の専門家が混在している。
論文 参考訳(メタデータ) (2024-04-20T06:01:09Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Evaluating alignment between humans and neural network representations in image-based learning tasks [5.657101730705275]
トレーニング済みの860ドルのニューラルネットワークモデルの表現が、人間の学習軌跡にどのようにマッピングされているかテストしました。
トレーニングデータセットのサイズは人間の選択に沿った中核的な決定要因であるのに対し、マルチモーダルデータ(テキストと画像)による対照的なトレーニングは、人間の一般化を予測するために現在公開されているモデルの一般的な特徴であることがわかった。
結論として、事前訓練されたニューラルネットワークは、タスク間で伝達可能な認知の基本的な側面を捉えているように見えるため、認知モデルのための表現を抽出するのに役立つ。
論文 参考訳(メタデータ) (2023-06-15T08:18:29Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Continual Learning with Bayesian Model based on a Fixed Pre-trained
Feature Extractor [55.9023096444383]
現在のディープラーニングモデルは、新しいクラスを学ぶ際に古い知識を破滅的に忘れることによって特徴づけられる。
人間の脳における新しい知識の学習プロセスに着想を得て,連続学習のためのベイズ生成モデルを提案する。
論文 参考訳(メタデータ) (2022-04-28T08:41:51Z) - Challenges and Opportunities for Machine Learning Classification of
Behavior and Mental State from Images [3.7445390865272588]
コンピュータビジョン(CV)分類器は、非言語的社会的行動と精神状態を識別し、検出する。
行動表現の過程を試みようとすると、いくつかの痛点が生じる。
データキュレーション、データ拡張、クラウドソースラベリング、アクティブラーニング、強化学習、生成モデル、表現学習、フェデレーション学習、メタラーニングなど、CVにおける最先端の研究成果について論じる。
論文 参考訳(メタデータ) (2022-01-26T21:35:17Z) - SEGA: Semantic Guided Attention on Visual Prototype for Few-Shot
Learning [85.2093650907943]
機械に新しいカテゴリーを認識させるためのセマンティックガイド注意(SEGA)を提案する。
SEGAは意味的知識を使用して、視覚的特徴に注意を払うべきものについて、トップダウンの方法で視覚的知覚を導く。
セマンティックガイドによる注意は期待された機能を実現し、最先端の結果より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-08T08:03:44Z) - Passive attention in artificial neural networks predicts human visual
selectivity [8.50463394182796]
受動的注意法は人間の視覚的選択性の推定と大きく重なることを示す。
認識実験を用いて,これらの相関関係を因果操作で検証した。
この研究は、人間の視覚のモデルとして、主要なANNの生物学的および心理的妥当性を評価するための新しいアプローチに寄与する。
論文 参考訳(メタデータ) (2021-07-14T21:21:48Z) - Classifying Eye-Tracking Data Using Saliency Maps [8.524684315458245]
本稿では,視線追跡データの自動的,定量的分類のための視覚情報に基づく特徴抽出手法を提案する。
サリエンシの振幅、類似度、相違点を対応するアイフィクスマップと比較すると、視覚追跡データを識別するために識別的特徴を生成するために有効に活用される情報の余分な次元が得られる。
論文 参考訳(メタデータ) (2020-10-24T15:18:07Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。