論文の概要: Predicting Reaction Time to Comprehend Scenes with Foveated Scene Understanding Maps
- arxiv url: http://arxiv.org/abs/2505.12660v1
- Date: Mon, 19 May 2025 03:23:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.378327
- Title: Predicting Reaction Time to Comprehend Scenes with Foveated Scene Understanding Maps
- Title(参考訳): 風景理解マップを用いたシーンの理解に要する反応時間予測
- Authors: Ziqi Wen, Jonathan Skaza, Shravan Murlidaran, William Y. Wang, Miguel P. Eckstein,
- Abstract要約: 視覚言語モデル(VLM)の最近の進歩は、任意の画像のシーン記述を生成することができる。
本稿では,視覚をVLMと統合し,空間的に解決されたシーン理解マップを作成する新しい画像計算モデルを提案する。
このメトリクスは、平均的な(N=17)人間のRTとシーンを理解するのに必要なササードの数と相関する。
- 参考スコア(独自算出の注目度): 4.956370589302627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although models exist that predict human response times (RTs) in tasks such as target search and visual discrimination, the development of image-computable predictors for scene understanding time remains an open challenge. Recent advances in vision-language models (VLMs), which can generate scene descriptions for arbitrary images, combined with the availability of quantitative metrics for comparing linguistic descriptions, offer a new opportunity to model human scene understanding. We hypothesize that the primary bottleneck in human scene understanding and the driving source of variability in response times across scenes is the interaction between the foveated nature of the human visual system and the spatial distribution of task-relevant visual information within an image. Based on this assumption, we propose a novel image-computable model that integrates foveated vision with VLMs to produce a spatially resolved map of scene understanding as a function of fixation location (Foveated Scene Understanding Map, or F-SUM), along with an aggregate F-SUM score. This metric correlates with average (N=17) human RTs (r=0.47) and number of saccades (r=0.51) required to comprehend a scene (across 277 scenes). The F-SUM score also correlates with average (N=16) human description accuracy (r=-0.56) in time-limited presentations. These correlations significantly exceed those of standard image-based metrics such as clutter, visual complexity, and scene ambiguity based on language entropy. Together, our work introduces a new image-computable metric for predicting human response times in scene understanding and demonstrates the importance of foveated visual processing in shaping comprehension difficulty.
- Abstract(参考訳): ターゲット探索や視覚的識別といったタスクにおける人間の反応時間(RT)を予測するモデルが存在するが、シーン理解のための画像計算可能な予測器の開発は依然としてオープンな課題である。
視覚言語モデル(VLM)の最近の進歩は、任意の画像のシーン記述を生成することができ、言語的記述を比較するための定量的指標が利用可能であることと相まって、人間のシーン理解をモデル化する新たな機会を提供する。
本研究では,人間のシーン理解における主要なボトルネックと,シーン間における応答時間の変動源は,人間の視覚系の特徴とタスク関連視覚情報の空間的分布との相互作用である,という仮説を立てる。
この仮定に基づいて、F-SUMスコアとともに、F-SUMスコアとともに、Foveated VisionとVLMを統合し、固定位置(Foveated Scene Understanding Map、F-SUM)の関数としてシーン理解の空間分解マップを生成する新しい画像計算モデルを提案する。
この基準は、平均的な(N=17)ヒトRT(r=0.47)とシーンを理解するのに必要なササードの数(r=0.51)と相関する。
F-SUMスコアは、時間限定のプレゼンテーションにおいて、平均的な(N=16)人間の記述精度(r=-0.56)と相関する。
これらの相関関係は, 言語エントロピーに基づく乱雑, 視覚的複雑度, シーンの曖昧さといった, 標準画像ベースメトリクスの指標をはるかに上回る。
本研究では,シーン理解における人間の反応時間を予測するための画像計算可能な新しい指標を導入し,理解の難しさを形作る上での視覚処理の重要性を実証する。
関連論文リスト
- Generalized Visual Relation Detection with Diffusion Models [94.62313788626128]
視覚的関係検出(VRD)は、画像内のオブジェクトペア間の関係(または相互作用)を特定することを目的としている。
本稿では,視覚的関係を連続的な埋め込みとしてモデル化し,一般化されたVRDを条件付き生成方法で実現するための拡散モデルの設計を提案する。
我々のDiff-VRDは、予め定義されたデータセットのカテゴリラベルを超えて、視覚的な関係を生成できる。
論文 参考訳(メタデータ) (2025-04-16T14:03:24Z) - PromptHMR: Promptable Human Mesh Recovery [68.65788167859817]
ヒューマン・ポーズ・アンド・シェイプ(HPS)推定は、混み合ったシーン、対人インタラクション、一視点再構築といった様々なシナリオにおける課題を提示する。
本稿では,空間的および意味的なプロンプトを通じてHPS推定を再構成するトランスフォーマーに基づくプロンプトHMRを提案する。
本手法はシーンコンテキストを維持するために全画像を処理し,複数の入力モダリティを受け入れる。
論文 参考訳(メタデータ) (2025-04-08T19:38:04Z) - Evaluating Hallucination in Text-to-Image Diffusion Models with Scene-Graph based Question-Answering Agent [9.748808189341526]
有効なテキスト・ツー・イメージ(T2I)評価指標は以下のとおりである: 生成された画像がテキストのプロンプトと一致しないインスタンスを検出する。
抽出したシーングラフを用いて質問応答を行うための大規模言語モデル (LLM) に基づく手法を提案し, 生成された画像に対する評価スコアを用いたデータセットを作成する。
論文 参考訳(メタデータ) (2024-12-07T18:44:38Z) - StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images [5.529078451095096]
視覚シーンの意味を理解することはコンピュータビジョンの基本的な課題である。
テキストと画像のフレームワークの最近の進歩は、自然のシーン統計を暗黙的に捉えるモデルにつながっている。
提案するStableSemanticsは、224万件の人為的なプロンプト、処理された自然言語キャプション、200万以上の合成画像、そして個々の名詞のチャンクに対応する1000万のアテンションマップからなるデータセットである。
論文 参考訳(メタデータ) (2024-06-19T17:59:40Z) - Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language
Models [3.86170450233149]
画像とテキストとのマッチングを訓練した大規模視覚言語モデル(VLM)では,空間的関係の微妙な理解が欠如していることが示されている。
本稿では,空間的節の認識とランク付けのための,よりきめ細かな構成的アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-18T18:58:54Z) - There is a Time and Place for Reasoning Beyond the Image [63.96498435923328]
画像は人間の目へのピクセルだけでなく、他のソースからのコンテキスト情報から推論、関連付け、推論して、推論することで、より完全な画像を確立することができる。
我々は、ニューヨーク・タイムズ(NYT)から自動的に抽出された16k画像と関連するニュース、時間、位置のデータセットTARAと、WITから離れた監視対象として追加で61k例を紹介した。
我々は、最先端のジョイントモデルと人間のパフォーマンスの間に70%のギャップがあることを示し、これは、セグメントワイズ推論を用いて高レベルな視覚言語ジョイントモデルを動機づける提案モデルによってわずかに満たされている。
論文 参考訳(メタデータ) (2022-03-01T21:52:08Z) - A Novel Image Descriptor with Aggregated Semantic Skeleton
Representation for Long-term Visual Place Recognition [0.0]
集合的意味骨格表現(SSR)を用いた新しい画像記述法を提案する。
1つの画像のSSR-VLADは、各カテゴリのセマンティックスケルトンの特徴を集約し、画像意味情報の時空間分布情報を符号化する。
我々は,挑戦的な都市景観の3つの公開データセットについて,一連の実験を行った。
論文 参考訳(メタデータ) (2022-02-08T06:49:38Z) - Enhancing Social Relation Inference with Concise Interaction Graph and
Discriminative Scene Representation [56.25878966006678]
我々はtextbfSocial rtextbfElation (PRISE) における textbfPractical textbfInference のアプローチを提案する。
人の対話的特徴と全体主義的な場面の識別的特徴を簡潔に学習する。
PRISEはPIPAデータセットにおけるドメイン分類の改善を6.8$%で達成している。
論文 参考訳(メタデータ) (2021-07-30T04:20:13Z) - Sketching Image Gist: Human-Mimetic Hierarchical Scene Graph Generation [98.34909905511061]
望ましいシーングラフは階層的に構築されるべきであり,シーングラフをモデル化するための新しいスキームを導入する。
HETに基づいてシーングラフを生成するために,階層と兄弟関係を具体的にエンコードするHETをHybrid-LSTM(Hybrid-LSTM)で解析する。
シーングラフにおける重要な関係性をさらに優先順位付けするために、関係ランク付けモジュール(RRM)を考案し、それらのランク付けを動的に調整する。
論文 参考訳(メタデータ) (2020-07-17T05:12:13Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。