論文の概要: A Resource-Rational Principle for Modeling Visual Attention Control
- arxiv url: http://arxiv.org/abs/2603.02056v1
- Date: Mon, 02 Mar 2026 16:45:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.978469
- Title: A Resource-Rational Principle for Modeling Visual Attention Control
- Title(参考訳): 視覚的アテンション制御のモデル化のためのリソース・レジショナル原理
- Authors: Yunpeng Bai,
- Abstract要約: Dissertationは、視覚的注意をモデル化するためのリソース・リテラル・シミュレーションベースのフレームワークを開発する。
視覚タスクを部分観測可能なマルコフ決定プロセスを用いて境界最適制御問題として定式化する。
これらのモデルは、従来のテキスト読み上げと、スマートグラスによる読書時間ウォーキングにまたがるシミュレーション環境でインスタンス化される。
- 参考スコア(独自算出の注目度): 13.330522631439917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding how people allocate visual attention is central to Human-Computer Interaction (HCI), yet existing computational models of attention are often either descriptive, task-specific, or difficult to interpret. My dissertation develops a resource-rational, simulation-based framework for modeling visual attention as a sequential decision-making process under perceptual, memory, and time constraints. I formalize visual tasks, such as reading and multitasking, as bounded-optimal control problems using Partially Observable Markov Decision Processes, enabling eye-movement behaviors such as fixation and attention switching to emerge from rational adaptation rather than being hand-coded or purely data-driven. These models are instantiated in simulation environments spanning traditional text reading and reading-while-walking with smart glasses, where they reproduce classic empirical effects, explain observed trade-offs between comprehension and safety, and generate novel predictions under time pressure and interface variation. Collectively, this work contributes a unified computational account of visual attention, offering new tools for theory-driven and resource-efficient HCI design.
- Abstract(参考訳): 視覚的注意をどう割り当てるかを理解することはヒューマン・コンピュータ・インタラクション(HCI)の中心であるが、既存の注意の計算モデルは記述的、タスク固有、解釈が難しいことが多い。
私の論文は、視覚的注意を知覚的、記憶的、時間的制約の下でのシーケンシャルな意思決定プロセスとしてモデル化するための、リソース合理的なシミュレーションベースのフレームワークを開発しています。
部分観察可能なマルコフ決定プロセスを用いて、有界最適制御問題として読書やマルチタスクなどの視覚的タスクを定式化し、手書きや純粋にデータ駆動ではなく、合理的適応から、固定や注意切替などの眼球運動動作を可能にする。
これらのモデルは、古典的な経験的効果を再現し、理解と安全性のトレードオフを観察し、時間的圧力とインターフェースの変化の下で新しい予測を生成する、スマートグラスによる従来のテキスト読解と読取時間歩行のシミュレーション環境でインスタンス化される。
総合的に、この研究は視覚的注意の統一的な計算的説明に寄与し、理論駆動および資源効率の高いHCI設計のための新しいツールを提供する。
関連論文リスト
- Attention mechanisms in neural networks [0.0]
注意機構により、学習された重み付け関数を通じて、モデルが入力シーケンスの関連部分に選択的にフォーカスすることができる。
このモノグラフは、アテンションメカニズムの包括的かつ厳密な数学的処理を提供し、その理論的基礎、計算的性質、現代のディープラーニングシステムにおける実践的実装を含んでいる。
自然言語処理、コンピュータビジョン、マルチモーダル学習の応用は、注意機構の汎用性を示している。
論文 参考訳(メタデータ) (2026-01-06T17:12:10Z) - Latent Implicit Visual Reasoning [59.39913238320798]
本稿では,視覚的推論トークンの発見と使用をLMMに指示するタスク非依存機構を提案する。
提案手法は直接微調整より優れ,様々な視覚中心のタスクにおいて最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-12-24T14:59:49Z) - See, Think, Act: Online Shopper Behavior Simulation with VLM Agents [58.92444959954643]
本稿では,視覚情報,特にWebページスクリーンショットのVLMによる動作シミュレーションへの統合について検討する。
我々は,協調行動予測と合理化生成にSFTを用いて,相互作用の完全な文脈を条件づける。
推論能力をさらに強化するため,RLを階層的な報酬構造と統合し,難易度因子によって拡張する。
論文 参考訳(メタデータ) (2025-10-22T05:07:14Z) - Learning an Ensemble Token from Task-driven Priors in Facial Analysis [6.1218317445177135]
本稿では,アンサンブルトークンを学習するための新しい手法であるET-Fuserを紹介する。
本稿では,自己認識機構内でアンサンブルトークンを生成する,頑健な事前統一学習手法を提案する。
以上の結果から,特徴表現に統計的に有意な改善が見られた。
論文 参考訳(メタデータ) (2025-07-02T02:07:31Z) - Dynamic Programming Techniques for Enhancing Cognitive Representation in Knowledge Tracing [125.75923987618977]
認知表現動的プログラミングに基づく知識追跡(CRDP-KT)モデルを提案する。
質問の難易度とそれらの間の性能間隔に基づいて認知表現を最適化する動的プログラミングアルゴリズムである。
これは、その後のモデルトレーニングのためにより正確で体系的な入力機能を提供し、それによって認知状態のシミュレーションにおける歪みを最小限にする。
論文 参考訳(メタデータ) (2025-06-03T14:44:48Z) - Gaze-Guided Learning: Avoiding Shortcut Bias in Visual Classification [3.1208151315473622]
本稿では,人間の視線時系列データセットであるGaze-CIFAR-10と2列視線エンコーダを紹介する。
並行して、視覚変換器(ViT)を用いて画像内容のシーケンシャルな表現を学習する。
画像特徴表現における不正確な局所化を効果的に補正する。
論文 参考訳(メタデータ) (2025-04-08T00:40:46Z) - ViRAC: A Vision-Reasoning Agent Head Movement Control Framework in Arbitrary Virtual Environments [0.13654846342364302]
本稿では,大規模モデルの常識的知識と推論能力を活用するViRACを提案する。
ViRACは最近の最先端技術よりも自然でコンテキスト対応の頭部回転を生成する。
論文 参考訳(メタデータ) (2025-02-14T09:46:43Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Relation-Oriented: Toward Causal Knowledge-Aligned AGI [24.76814726122543]
リレーショナル指向パラダイムは、因果的知識に整合した人工知能の開発を促進することを目的としている。
手法として,提案したリレーショナルインデックス表現学習(RIRL)を有効性実験により検証した。
論文 参考訳(メタデータ) (2023-07-31T03:32:59Z) - GAMR: A Guided Attention Model for (visual) Reasoning [7.919213739992465]
人間は、複雑な視覚シーンを柔軟に解析し理解する能力において、現代のAIシステムよりも優れています。
視覚的推論のための新しいモジュール,(視覚的)推論のためのガイド付き注意モデル(GAMR)を提案する。
GAMRは、タスク関連視覚情報をメモリに選択してルーティングするために、注意シフトのシーケンスを通じて、脳が複雑な視覚的推論問題を動的に解くことを示唆している。
論文 参考訳(メタデータ) (2022-06-10T07:52:06Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Causal Navigation by Continuous-time Neural Networks [108.84958284162857]
本研究では,連続時間ニューラルネットワークを用いた因果表現学習のための理論的,実験的枠組みを提案する。
本手法は,ドローンの視覚制御学習の文脈において,一連の複雑なタスクにおいて評価する。
論文 参考訳(メタデータ) (2021-06-15T17:45:32Z) - Cost-effective Interactive Attention Learning with Neural Attention
Processes [79.8115563067513]
対話型注意学習(Interactive Attention Learning, IAL)と呼ばれる対話型学習フレームワークを提案する。
IALは、人間のアノテーションが不足しているため、過度に適合する傾向がある。
我々は,サンプル効率のよい注意機構と,コスト効率のよいインスタンスと機能の再ランクアルゴリズムを提案することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2020-06-09T17:36:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。