Fugu-MT 論文翻訳(概要): Computing a human-like reaction time metric from stable recurrent vision models

論文の概要: Computing a human-like reaction time metric from stable recurrent vision models

arxiv url: http://arxiv.org/abs/2306.11582v2
Date: Mon, 6 Nov 2023 16:39:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 21:49:40.732476
Title: Computing a human-like reaction time metric from stable recurrent vision models
Title（参考訳）: 安定再帰視覚モデルを用いた人為的反応時間測定の計算
Authors: Lore Goetschalckx, Lakshmi Narasimhan Govindarajan, Alekh Karkada Ashok, Aarit Ahuja, David L. Sheinberg, Thomas Serre
Abstract要約: 我々は,刺激計算可能なタスク最適化モデルから,反応時間の計算量を構築するための汎用方法論をスケッチする。評価基準は,4つの異なる視覚的意思決定タスクの刺激操作において,人間の反応時間のパターンと一致していることを示す。この研究は、他の様々な認知タスクの文脈において、モデルと人間の視覚戦略の時間的アライメントを探索する方法を開拓する。
参考スコア（独自算出の注目度）: 11.87006916768365
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The meteoric rise in the adoption of deep neural networks as computational models of vision has inspired efforts to "align" these models with humans. One dimension of interest for alignment includes behavioral choices, but moving beyond characterizing choice patterns to capturing temporal aspects of visual decision-making has been challenging. Here, we sketch a general-purpose methodology to construct computational accounts of reaction times from a stimulus-computable, task-optimized model. Specifically, we introduce a novel metric leveraging insights from subjective logic theory summarizing evidence accumulation in recurrent vision models. We demonstrate that our metric aligns with patterns of human reaction times for stimulus manipulations across four disparate visual decision-making tasks spanning perceptual grouping, mental simulation, and scene categorization. This work paves the way for exploring the temporal alignment of model and human visual strategies in the context of various other cognitive tasks toward generating testable hypotheses for neuroscience. Links to the code and data can be found on the project page: https://serre-lab.github.io/rnn_rts_site.
Abstract（参考訳）: 視覚の計算モデルとしてのディープニューラルネットワークの採用は、これらのモデルを人間と「分離」する取り組みに刺激を与えた。アライメントには行動選択があるが、選択パターンを特徴付けるだけでなく、視覚的な意思決定の時間的側面を捉えることは困難である。本稿では、刺激計算可能なタスク最適化モデルから、反応時間の計算量を構築するための汎用方法論をスケッチする。具体的には、繰り返し視覚モデルに蓄積された証拠を要約する主観的論理理論からの洞察を活用する新しい指標を提案する。本尺度は,知覚的グループ化,メンタルシミュレーション,シーン分類の4つの異なる視覚的意思決定タスクにわたる刺激操作に対する人間の反応時間パターンに適合することを示す。この研究は、他の様々な認知タスクの文脈におけるモデルと人間の視覚戦略の時間的アライメントを探索し、神経科学の検証可能な仮説を生成するための道を開いた。コードとデータのリンクはプロジェクトページにある。 https://serre-lab.github.io/rnn_rts_site。

関連論文リスト

Human-level 3D shape perception emerges from multi-view learning [63.048728487674815]
任意のオブジェクトに対する人間の3次元形状推論を予測するためのモデリングフレームワークを開発する。我々は、自然主義的な知覚データよりも視覚空間的目的を用いて訓練された新しいニューラルネットワークのクラスでこれを達成した。人間のレベル3D知覚は、自然主義的な視覚空間データよりもシンプルでスケーラブルな学習目標から生まれる可能性がある。
論文参考訳（メタデータ） (2026-02-19T18:56:05Z)
SITE: towards Spatial Intelligence Thorough Evaluation [121.1493852562597]
空間知能 (Spatial Intelligence, SI) は、空間的関係の可視化、操作、推論を含む認知能力を表す。 SI Thorough Evaluationに向けたベンチマークデータセットであるSITEを紹介する。ベンチマークの計算には、31の既存のデータセットに関するボトムアップ調査と、認知科学の3つの分類システムに基づくトップダウン戦略を組み合わせる。
論文参考訳（メタデータ） (2025-05-08T17:45:44Z)
Object segmentation from common fate: Motion energy processing enables human-like zero-shot generalization to random dot stimuli [10.978614683038758]
ゼロショット図形-地上セグメンテーションのための広い範囲の光学フローモデルと神経科学による運動エネルギーモデルを評価する。異なるデータセットでトレーニングされた40の深い光フローモデルの断面は、ランダムなドットビデオの動作パターンを推定するのに苦労している。この神経科学にインスパイアされたモデルは、現在のコンピュータビジョンモデルにおけるランダムドット刺激に対する人間のようなゼロショット一般化の欠如にうまく対処する。
論文参考訳（メタデータ） (2024-11-03T09:59:45Z)
When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文参考訳（メタデータ） (2024-10-14T17:59:58Z)
Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。我々は500人以上の参加者から行動データの35万件の試行を収集した。次に、一般的な視覚モデルの性能を評価する。
論文参考訳（メタデータ） (2024-09-09T17:59:13Z)
Aligning Neuronal Coding of Dynamic Visual Scenes with Foundation Vision Models [2.790870674964473]
自己教師型視覚変換器(ViT)を用いた時空間畳み込みニューラルネットワークVi-STを提案する。提案したVi-STは,脳内動的視覚シーンのニューロンコーディングのための新しいモデリングフレームワークである。
論文参考訳（メタデータ） (2024-07-15T14:06:13Z)
Evaluating alignment between humans and neural network representations in image-based learning tasks [5.657101730705275]
トレーニング済みの860ドルのニューラルネットワークモデルの表現が、人間の学習軌跡にどのようにマッピングされているかテストしました。トレーニングデータセットのサイズは人間の選択に沿った中核的な決定要因であるのに対し、マルチモーダルデータ(テキストと画像)による対照的なトレーニングは、人間の一般化を予測するために現在公開されているモデルの一般的な特徴であることがわかった。結論として、事前訓練されたニューラルネットワークは、タスク間で伝達可能な認知の基本的な側面を捉えているように見えるため、認知モデルのための表現を抽出するのに役立つ。
論文参考訳（メタデータ） (2023-06-15T08:18:29Z)
Adapting Brain-Like Neural Networks for Modeling Cortical Visual Prostheses [68.96380145211093]
皮質補綴は視覚野に移植された装置で、電気的にニューロンを刺激することで失った視力を回復しようとする。現在、これらのデバイスが提供する視覚は限られており、刺激による視覚知覚を正確に予測することはオープンな課題である。我々は、視覚システムの有望なモデルとして登場した「脳様」畳み込みニューラルネットワーク(CNN)を活用することで、この問題に対処することを提案する。
論文参考訳（メタデータ） (2022-09-27T17:33:19Z)
LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文参考訳（メタデータ） (2021-11-30T04:10:57Z)
Drop, Swap, and Generate: A Self-Supervised Approach for Generating Neural Activity [33.06823702945747]
我々はSwap-VAEと呼ばれる神経活動の不整合表現を学習するための新しい教師なしアプローチを導入する。このアプローチは、生成モデリングフレームワークとインスタンス固有のアライメント損失を組み合わせたものです。我々は、行動に関連付けられた関連する潜在次元に沿って、ニューラルネットワークをアンタングルする表現を構築することが可能であることを示す。
論文参考訳（メタデータ） (2021-11-03T16:39:43Z)
The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文参考訳（メタデータ） (2020-12-07T01:20:38Z)
Fooling the primate brain with minimal, targeted image manipulation [67.78919304747498]
本稿では、行動に反映される神経活動と知覚の両方の変化をもたらす、最小限の標的画像摂動を生成するための一連の手法を提案する。我々の研究は、敵対的攻撃、すなわち最小限のターゲットノイズによる画像の操作で同じ目標を共有し、ANNモデルに画像の誤分類を誘導する。
論文参考訳（メタデータ） (2020-11-11T08:30:54Z)
A Meta-Bayesian Model of Intentional Visual Search [0.0]
本稿では,分類的知覚とササード計画の根底にある神経機構のベイズ的解釈を取り入れたビジュアルサーチの計算モデルを提案する。擬似行動と人的行動の有意義な比較を可能にするため、参加者は視線に追従する窓から隠蔽されたMNIST桁を分類する必要がある。本モデルは,観察された人間の行動から主観的パラメータを回収し,高い解釈可能性を維持しながら,分類精度などの人間の行動指標を再カプセル化することができる。
論文参考訳（メタデータ） (2020-06-05T16:10:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。