論文の概要: Incorporating Eye-Tracking Signals Into Multimodal Deep Visual Models For Predicting User Aesthetic Experience In Residential Interiors
- arxiv url: http://arxiv.org/abs/2601.16811v1
- Date: Fri, 23 Jan 2026 15:02:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.73954
- Title: Incorporating Eye-Tracking Signals Into Multimodal Deep Visual Models For Predicting User Aesthetic Experience In Residential Interiors
- Title(参考訳): 家庭内における審美体験予測のためのマルチモーダル深部視覚モデルへのアイトラッキング信号の導入
- Authors: Chen-Ying Chien, Po-Chih Kuo,
- Abstract要約: 本研究では、視覚特徴と視線追跡信号とを融合させて美的評価を予測できるデュアルブランチCNN-LSTMフレームワークを提案する。
視線同期データと組み合わせた内部デザインビデオ224件のデータセットを収集した。
- 参考スコア(独自算出の注目度): 3.5522446024799064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding how people perceive and evaluate interior spaces is essential for designing environments that promote well-being. However, predicting aesthetic experiences remains difficult due to the subjective nature of perception and the complexity of visual responses. This study introduces a dual-branch CNN-LSTM framework that fuses visual features with eye-tracking signals to predict aesthetic evaluations of residential interiors. We collected a dataset of 224 interior design videos paired with synchronized gaze data from 28 participants who rated 15 aesthetic dimensions. The proposed model attains 72.2% accuracy on objective dimensions (e.g., light) and 66.8% on subjective dimensions (e.g., relaxation), outperforming state-of-the-art video baselines and showing clear gains on subjective evaluation tasks. Notably, models trained with eye-tracking retain comparable performance when deployed with visual input alone. Ablation experiments further reveal that pupil responses contribute most to objective assessments, while the combination of gaze and visual cues enhances subjective evaluations. These findings highlight the value of incorporating eye-tracking as privileged information during training, enabling more practical tools for aesthetic assessment in interior design.
- Abstract(参考訳): 人々がインテリア空間をどのように認識し、評価するかを理解することは、幸福を促進する環境の設計に不可欠である。
しかし、知覚の主観的性質と視覚応答の複雑さのため、審美経験を予測することは依然として困難である。
本研究では,視覚特徴と視線追跡信号とを融合したデュアルブランチCNN-LSTMフレームワークを導入し,住宅内装の美的評価を予測する。
我々は,15の審美的次元を評価された28人の被験者の視線同期データと組み合わせた224人の内装デザインビデオのデータセットを収集した。
提案モデルでは,対象寸法(eg,光)の72.2%,主観的寸法(eg,緩和)の66.8%,最先端の映像ベースラインを上回り,主観的評価タスクの明確な利得を示す。
特に、視線追跡でトレーニングされたモデルでは、視覚的な入力だけでデプロイされた場合、同等のパフォーマンスが保たれる。
アブレーション実験により、瞳孔反応は客観的評価に最も寄与し、視線と視覚的手がかりの組み合わせは主観的評価を高めることが明らかとなった。
これらの知見は、トレーニング中に視線追跡を特権情報として取り入れることの価値を強調し、インテリアデザインにおける美的評価のためのより実践的なツールを可能にした。
関連論文リスト
- VisionReasoner: Unified Reasoning-Integrated Visual Perception via Reinforcement Learning [56.99825489208698]
複数の視覚知覚タスクの推論と解決が可能な統合フレームワークであるVisionReasonerを紹介する。
VisionReasonerは、視覚的な入力を分析するための推論機能を強化し、統一モデル内の様々な知覚タスクに対処する。
VisionReasonerは、検出、セグメンテーション、カウントという3つの重要な領域にまたがる10のタスクに対して評価する。
論文 参考訳(メタデータ) (2025-05-17T16:51:47Z) - Influence of field of view in visual prostheses design: Analysis with a VR system [3.9998518782208783]
視覚補綴における空間分解能に対する視野の影響を評価する。
通常視認される被験者は24名に、通常の物体の発見と認識を依頼された。
その結果、視野が大きくなると精度と応答時間が低下することがわかった。
論文 参考訳(メタデータ) (2025-01-28T22:25:22Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。
本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:20Z) - Assessing the Aesthetic Evaluation Capabilities of GPT-4 with Vision:
Insights from Group and Individual Assessments [2.539875353011627]
本研究は,画像の美的評価課題に対するビジョン付きGPT-4の性能について検討する。
我々は,グループの平均評価値と個人の評価値の予測という2つのタスクを採用する。
GPT-4は美的評価の予測に優れた性能を示し,美容と美容に対する異なる反応の性質を示した。
論文 参考訳(メタデータ) (2024-03-06T10:27:09Z) - Exploring Predicate Visual Context in Detecting Human-Object
Interactions [44.937383506126274]
クロスアテンションによる画像特徴の再導入について検討する。
PViCはHICO-DETおよびV-COCOベンチマークにおいて最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-08-11T15:57:45Z) - Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know
How to Reason? [30.16956370267339]
視覚質問応答のタスクに対する視覚的表現を評価するためのプロトコルを提案する。
視覚的特徴抽出を推論から分離するために,特定の注意に基づく推論モジュールを設計する。
局所的な特徴を密に抽出した2種類の視覚表現とオブジェクト中心の視覚表現を、基底真理を用いた完全な画像表現の性能と比較する。
論文 参考訳(メタデータ) (2022-12-20T14:36:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。