論文の概要: UniAR: Unifying Human Attention and Response Prediction on Visual
Content
- arxiv url: http://arxiv.org/abs/2312.10175v1
- Date: Fri, 15 Dec 2023 19:57:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 18:13:47.012133
- Title: UniAR: Unifying Human Attention and Response Prediction on Visual
Content
- Title(参考訳): UniAR:視覚コンテンツにおける人間の注意と反応予測の統合
- Authors: Peizhao Li, Junfeng He, Gang Li, Rachit Bhargava, Shaolei Shen,
Nachiappan Valliappan, Youwei Liang, Hongxiang Gu, Venky Ramachandran, Golnaz
Farhadi, Yang Li, Kai J Kohlhoff, and Vidhya Navalpakkam
- Abstract要約: UniAR - 異なるタイプの視覚コンテンツにわたって暗黙的および明示的な人間の振る舞いを予測する統一モデル。
自然画像、Webページ、グラフィックデザインにまたがるさまざまなパブリックデータセットに基づいて、UniARをトレーニングします。
- 参考スコア(独自算出の注目度): 12.281060227170792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Progress in human behavior modeling involves understanding both implicit,
early-stage perceptual behavior such as human attention and explicit,
later-stage behavior such as subjective ratings/preferences. Yet, most prior
research has focused on modeling implicit and explicit human behavior in
isolation. Can we build a unified model of human attention and preference
behavior that reliably works across diverse types of visual content? Such a
model would enable predicting subjective feedback such as overall satisfaction
or aesthetic quality ratings, along with the underlying human attention or
interaction heatmaps and viewing order, enabling designers and content-creation
models to optimize their creation for human-centric improvements. In this
paper, we propose UniAR -- a unified model that predicts both implicit and
explicit human behavior across different types of visual content. UniAR
leverages a multimodal transformer, featuring distinct prediction heads for
each facet, and predicts attention heatmap, scanpath or viewing order, and
subjective rating/preference. We train UniAR on diverse public datasets
spanning natural images, web pages and graphic designs, and achieve leading
performance on multiple benchmarks across different image domains and various
behavior modeling tasks. Potential applications include providing instant
feedback on the effectiveness of UIs/digital designs/images, and serving as a
reward model to further optimize design/image creation.
- Abstract(参考訳): 人間の行動モデリングの進歩は、人間の注意のような暗黙的、早期の知覚的行動と、主観的格付け/参照のような明示的な後期の行動の両方を理解することである。
しかし、ほとんどの先行研究は、暗黙的および明示的な人間の行動を分離してモデリングすることに焦点を当てている。
多様な視覚コンテンツに対して確実に機能する,人間の注意と嗜好の統一モデルの構築は可能か?
このようなモデルは、全体的な満足度や美的品質評価といった主観的なフィードバックを、人間の注意や相互作用のヒートマップや視聴順序とともに予測し、デザイナーやコンテンツ制作モデルが人間中心の改善のために創造を最適化することを可能にする。
本論文では,異なるタイプの視覚コンテンツに対して暗黙的・明示的な行動を予測する統一モデルUniARを提案する。
UniARはマルチモーダルトランスフォーマーを活用し、顔ごとに異なる予測ヘッドを特徴とし、アテンションヒートマップ、スキャンパスまたは視聴順序、主観評価/参照を予測する。
自然画像、webページ、グラフィックデザインにまたがるさまざまな公開データセットでユニアルをトレーニングし、異なる画像ドメインと様々な行動モデリングタスクにまたがる複数のベンチマークで主要なパフォーマンスを達成します。
潜在的なアプリケーションには、UI/デジタルデザイン/イメージの有効性に関する即時フィードバックの提供や、デザイン/イメージ作成をさらに最適化するための報酬モデルとして機能することが含まれる。
関連論文リスト
- Generating Human-Centric Visual Cues for Human-Object Interaction
Detection via Large Vision-Language Models [59.611697856666304]
人-物対検出(Human-object Interaction:HOI)は、人-物対を検出し、その相互作用を予測することを目的とする。
我々はVLMを用いた3つのプロンプトを提案し、人間の複数の視点から画像内で人間中心の視覚的手がかりを生成する。
我々は,マルチトワーアーキテクチャを用いたトランスフォーマーベースのマルチモーダル融合モジュールを開発し,視覚的キュー機能をインスタンスと対話デコーダに統合する。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Q-Instruct: Improving Low-level Visual Abilities for Multi-modality
Foundation Models [81.20804369985376]
我々は,低レベルの視覚に対する多数の人間のフィードバックを収集する大規模主観的実験を行う。
構築された**Q-Pathway**データセットには、18,973イメージに関する58万の詳細な人間のフィードバックが含まれている。
我々は、GPT参加型変換を設計し、これらのフィードバックを多種多様な200K命令応答対に処理する。
論文 参考訳(メタデータ) (2023-11-12T09:10:51Z) - AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable
Diffusion Model [69.12623428463573]
AlignDiffは、人間の好みを定量化し、抽象性をカバーし、拡散計画をガイドする新しいフレームワークである。
ユーザがカスタマイズした動作と正確に一致し、効率的に切り替えることができます。
選好マッチング,スイッチング,カバーにおいて,他のベースラインに比べて優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-03T13:53:08Z) - Exploring the Robustness of Human Parsers Towards Common Corruptions [99.89886010550836]
我々は,LIP-C,ATR-C,Pascal-Person-Part-Cという3つの汚職堅牢性ベンチマークを構築し,人間の解析モデルのリスク許容度を評価する。
データ強化戦略に触発されて、一般に破損した条件下で頑健性を高めるための新しい異種強化機構を提案する。
論文 参考訳(メタデータ) (2023-09-02T13:32:14Z) - Benchmarking human visual search computational models in natural scenes:
models comparison and reference datasets [0.0]
我々は、自然の場面で利用可能な最先端のビジュアル検索モデルを選択し、異なるデータセットで評価する。
本稿では,ニューラルネットワークに基づくビジュアルサーチモデルと組み合わせて,理想ベイズ探索法の改良を提案する。
論文 参考訳(メタデータ) (2021-12-10T19:56:45Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Model-agnostic Fits for Understanding Information Seeking Patterns in
Humans [0.0]
不確実な意思決定タスクでは、人間はそのタスクに関連する情報を探し、統合し、行動する際、特徴的なバイアスを示す。
ここでは,これらのバイアスを総合的に測定・分類した,大規模に収集した先行設計実験のデータを再検討した。
これらのバイアスを集約的に再現するディープラーニングモデルを設計し、個々の行動の変化を捉えます。
論文 参考訳(メタデータ) (2020-12-09T04:34:58Z) - A Psychophysically Oriented Saliency Map Prediction Model [4.884688557957589]
本研究では,人間の視覚野の多チャンネルモデルに触発された新しい心理物理学的サリエンシ予測アーキテクチャであるWECSFを提案する。
提案モデルは、MIT1003、MIT300、トロント、SID4VAM、UCFスポーツデータセットなど、いくつかのデータセットを用いて評価される。
本モデルは, 自然画像, 心理物理合成画像, ダイナミックビデオの様々な測定値を用いて, 安定かつ優れた性能を実現した。
論文 参考訳(メタデータ) (2020-11-08T20:58:05Z) - Appearance Consensus Driven Self-Supervised Human Mesh Recovery [67.20942777949793]
単眼画像から人間のポーズや形状を推定する自己教師付きメッシュ回復フレームワークを提案する。
標準モデルに基づく3次元ポーズ推定ベンチマークの最先端結果を得る。
その結果、色付きメッシュ予測により、ポーズや形状推定以外にも、さまざまな外観関連タスクにフレームワークの使用が開放される。
論文 参考訳(メタデータ) (2020-08-04T05:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。