論文の概要: Modeling the Human Visual System: Comparative Insights from Response-Optimized and Task-Optimized Vision Models, Language Models, and different Readout Mechanisms
- arxiv url: http://arxiv.org/abs/2410.14031v1
- Date: Thu, 17 Oct 2024 21:11:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:27:14.378836
- Title: Modeling the Human Visual System: Comparative Insights from Response-Optimized and Task-Optimized Vision Models, Language Models, and different Readout Mechanisms
- Title(参考訳): 人間の視覚システムのモデリング:応答最適化とタスク最適化の視覚モデル、言語モデル、読み出し機構の比較
- Authors: Shreya Saha, Ishaan Chadha, Meenakshi khosla,
- Abstract要約: 視覚入力を用いた応答最適化モデルでは,早期・中期の視覚領域において,より優れた予測精度が得られることを示す。
言語的記述では捉えられない入力の知覚的特徴に敏感な視覚野の3つの異なる領域を同定する。
本稿では,意味的内容に基づいて受容場や特徴マップを変調し,既存のSOTAよりも3~23%精度が向上する手法を提案する。
- 参考スコア(独自算出の注目度): 1.515687944002438
- License:
- Abstract: Over the past decade, predictive modeling of neural responses in the primate visual system has advanced significantly, largely driven by various DNN approaches. These include models optimized directly for visual recognition, cross-modal alignment through contrastive objectives, neural response prediction from scratch, and large language model embeddings.Likewise, different readout mechanisms, ranging from fully linear to spatial-feature factorized methods have been explored for mapping network activations to neural responses. Despite the diversity of these approaches, it remains unclear which method performs best across different visual regions. In this study, we systematically compare these approaches for modeling the human visual system and investigate alternative strategies to improve response predictions. Our findings reveal that for early to mid-level visual areas, response-optimized models with visual inputs offer superior prediction accuracy, while for higher visual regions, embeddings from LLMs based on detailed contextual descriptions of images and task-optimized models pretrained on large vision datasets provide the best fit. Through comparative analysis of these modeling approaches, we identified three distinct regions in the visual cortex: one sensitive primarily to perceptual features of the input that are not captured by linguistic descriptions, another attuned to fine-grained visual details representing semantic information, and a third responsive to abstract, global meanings aligned with linguistic content. We also highlight the critical role of readout mechanisms, proposing a novel scheme that modulates receptive fields and feature maps based on semantic content, resulting in an accuracy boost of 3-23% over existing SOTAs for all models and brain regions. Together, these findings offer key insights into building more precise models of the visual system.
- Abstract(参考訳): 過去10年間で、霊長類視覚系における神経反応の予測モデリングが大幅に進歩し、主に様々なDNNアプローチによって推進されている。
これらには、直接的に視覚認識に最適化されたモデル、対照的な目的を通したクロスモーダルアライメント、スクラッチからのニューラルレスポンス予測、および大きな言語モデル埋め込みなどが含まれる。
これらのアプローチの多様性にもかかわらず、どの手法が異なる視覚領域で最もよく機能するかはいまだ不明である。
本研究では、人間の視覚システムをモデル化するためのこれらのアプローチを体系的に比較し、応答予測を改善するための代替戦略を検討する。
その結果,早期・中期の視覚領域では,視覚入力を用いた応答最適化モデルの方が予測精度が優れ,高次視覚領域では画像のコンテキスト記述に基づくLCMからの埋め込みや,大規模視覚データセットで事前学習したタスク最適化モデルが最も適していることがわかった。
これらのモデリング手法の比較分析により、視覚野の3つの領域を同定した。1つは、主に言語的記述によって捉えられていない入力の知覚的特徴に敏感であり、もう1つは意味的情報を表すきめ細かな視覚的詳細に調整され、もう1つは抽象的でグローバルな意味に応答し、言語的内容と一致している。
また、セマンティックな内容に基づいて受容野や特徴マップを調整し、すべてのモデルや脳領域において既存のSOTAよりも3~23%精度が向上する新しいスキームを提案する。
これらの発見は、視覚システムのより正確なモデルを構築するための重要な洞察を与えてくれる。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
SIMAは、自己改善を通じて視覚的および言語的モダリティアライメントを強化するフレームワークである。
コンテキスト内自己批判機構を使用して、プライオリティチューニングのためのレスポンスペアを選択する。
SIMAは従来の手法よりも優れたモダリティアライメントを実現することを実証する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。
LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。
本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T14:30:33Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Deep Reinforcement Learning Models Predict Visual Responses in the
Brain: A Preliminary Result [1.0323063834827415]
強化学習を用いてニューラルネットワークモデルをトレーニングし、3Dコンピュータゲームをプレイします。
これらの強化学習モデルは、初期視覚領域において、神経応答予測精度のスコアを得る。
対照的に、教師付きニューラルネットワークモデルでは、より高い視覚領域において、より優れた神経応答予測が得られる。
論文 参考訳(メタデータ) (2021-06-18T13:10:06Z) - A Psychophysically Oriented Saliency Map Prediction Model [4.884688557957589]
本研究では,人間の視覚野の多チャンネルモデルに触発された新しい心理物理学的サリエンシ予測アーキテクチャであるWECSFを提案する。
提案モデルは、MIT1003、MIT300、トロント、SID4VAM、UCFスポーツデータセットなど、いくつかのデータセットを用いて評価される。
本モデルは, 自然画像, 心理物理合成画像, ダイナミックビデオの様々な測定値を用いて, 安定かつ優れた性能を実現した。
論文 参考訳(メタデータ) (2020-11-08T20:58:05Z) - Adaptive Exploitation of Pre-trained Deep Convolutional Neural Networks
for Robust Visual Tracking [14.627458410954628]
本稿では,4つのCNNモデルを包括的に分析し,各モデルの最適な特徴マップを決定する。
解析結果を属性辞書として活用することにより,視覚トラッカーの精度とロバスト性を向上させるために,深部特徴の適応的利用を提案する。
論文 参考訳(メタデータ) (2020-08-29T17:09:43Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。