論文の概要: Why We Look Where We Look: Emergent Human-like Fixations of a Foveated Visual Language Model Maximizing Scene Understanding
- arxiv url: http://arxiv.org/abs/2605.17823v1
- Date: Mon, 18 May 2026 03:55:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.796095
- Title: Why We Look Where We Look: Emergent Human-like Fixations of a Foveated Visual Language Model Maximizing Scene Understanding
- Title(参考訳): 風景理解を最大化するビジュアル言語モデルの創発的な人型固定法
- Authors: Shravan Murlidaran, Ziqi Wen, Sana Shehabi, Miguel P. Eckstein,
- Abstract要約: 情景理解を最適化するために訓練された模擬葉緑化エージェントは,創発的な人間の定着署名パターンを示す。
人間の自由視聴固定パターンは、望ましくない視覚の生物学的制約の下でシーン理解を最適化する機能的副産物として現れる可能性がある。
- 参考スコア(独自算出の注目度): 3.6425317770998125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When humans view scenes without a specific task (free-viewing), they initially direct their eye movements toward the scene center and then fixate on people, text, objects being gazed at or grasped, and semantically meaningful regions. What these signature fixation patterns reflect and whether they optimize an underlying perceptual task remain unknown. We show that a computational agent with simulated foveation, trained to optimize scene comprehension, exhibits emergent human fixation signature patterns. In contrast, versions of the agent trained to search or classify scenes, or equipped with peripheral vision that was better or worse than human vision, predicted human fixation patterns less accurately. Thus, human free-viewing fixation patterns may emerge as a functional byproduct of optimizing scene comprehension under the biological constraints of foveated vision.
- Abstract(参考訳): 人間が特定のタスク(自由視聴)なしでシーンを見るとき、最初は目の動きをシーンセンターに向け、人、テキスト、物を見つめたり掴んだり、意味のある領域に固定する。
これらのシグネチャ固定パターンが何を反映し、根底にある知覚的タスクを最適化するかどうかは不明だ。
情景理解を最適化するために訓練された模擬葉緑化エージェントは,創発的な人間の定着署名パターンを示す。
対照的に、シーンの検索や分類のために訓練されたエージェントのバージョンや、人間の視覚よりも良いか悪い周辺視覚を備えたエージェントは、人間の固定パターンをより正確に予測することができなかった。
このように、人間の自由視聴固定パターンは、望ましくない視覚の生物学的制約の下でシーン理解を最適化する機能的副産物として現れる可能性がある。
関連論文リスト
- Personalized Image Descriptions from Attention Sequences [55.65023709100682]
異なる領域、オブジェクト、詳細をさまざまな順序で参照し、異なる言語スタイルで記述する。
パーソナライズされた画像記述のための既存のモデルは、個々の視聴パターンを活用する以前の作業がなく、言語スタイルのみに焦点を当てている。
我々は、パーソナライズされた視聴動作を記述生成のコアファクターとして明示的にモデル化することで、このギャップに対処する。
そこで,本手法では,補助的な注意制御タスクによって誘導される言語スタイルと視聴行動の両方をキャプチャする対象埋め込みについて学習する。軽量なアダプタは,これらの埋め込みを凍結した視覚言語モデルと整合させ,再訓練を行なわずにパーソナライズすることができる。
論文 参考訳(メタデータ) (2025-12-07T05:23:18Z) - Testing the Limits of Fine-Tuning for Improving Visual Cognition in Vision Language Models [51.58859621164201]
視覚認知タスクにおける視覚刺激と人間の判断を導入し,認知領域間でのパフォーマンスを評価する。
我々は、直感的な物理と因果推論のために、地上の真理データに基づいてモデルを微調整する。
タスク固有の微調整は、他の視覚的特徴を持つデータに対する堅牢な人間ライクな一般化に寄与しない。
論文 参考訳(メタデータ) (2025-02-21T18:58:30Z) - Human Gaze Boosts Object-Centered Representation Learning [7.473473243713322]
近年の自己教師型学習モデルでは、人間に比べて画像認識のタスクにおいて、人間のような自我中心の視覚入力が著しく劣っている。
本稿では,中心的な視覚情報に焦点を合わせることで,自己中心型視覚学習が促進されるかどうかを検討する。
我々の実験は、中心的なビジョンに焦点を合わせることで、オブジェクト中心の表現がより良くなることを示した。
論文 参考訳(メタデータ) (2025-01-06T12:21:40Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Text2Place: Affordance-aware Text Guided Human Placement [26.041917073228483]
この研究は、textbfSemantic Human Placementと呼ばれる背景シーンにおける現実的な人間の挿入の問題に取り組む。
セマンティックマスクの学習には,テキストから画像への生成モデルから学習したリッチなオブジェクトシーンの先行情報を活用する。
提案手法は,背景と被写体を保存しながら,リアルなシーン構成を生成することができる。
論文 参考訳(メタデータ) (2024-07-22T08:00:06Z) - Self-supervised video pretraining yields robust and more human-aligned visual representations [14.599429594703539]
一般的な表現は、画像理解タスクにおける事前ビデオ事前学習法よりもはるかに優れている。
VITO表現は、画像、ビデオ、および逆向きに訓練されたものよりも、自然および合成的な変形に対して著しく堅牢である。
これらの結果は、ビデオ事前学習は、視覚世界の統一的、堅牢で、人間と協調した表現を学習する簡単な方法になり得ることを示唆している。
論文 参考訳(メタデータ) (2022-10-12T17:30:12Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - VisualEchoes: Spatial Image Representation Learning through Echolocation [97.23789910400387]
いくつかの動物種(コウモリ、イルカ、クジラなど)や視覚障害者さえもエコーロケーションを行う能力を持っている。
エコーロケーションを用いて有用な視覚特徴を学習する対話型表現学習フレームワークを提案する。
我々の研究は、物理的世界との相互作用によって監督される、エンボディエージェントのための表現学習の新しい道を開く。
論文 参考訳(メタデータ) (2020-05-04T16:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。