Fugu-MT 論文翻訳(概要): UniAR: A Unified model for predicting human Attention and Responses on visual content

論文の概要: UniAR: A Unified model for predicting human Attention and Responses on visual content

arxiv url: http://arxiv.org/abs/2312.10175v3
Date: Thu, 31 Oct 2024 08:10:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.10018
Title: UniAR: A Unified model for predicting human Attention and Responses on visual content
Title（参考訳）: UniAR:視覚的コンテンツに対する人間の注意と反応を予測する統一モデル
Authors: Peizhao Li, Junfeng He, Gang Li, Rachit Bhargava, Shaolei Shen, Nachiappan Valliappan, Youwei Liang, Hongxiang Gu, Venky Ramachandran, Golnaz Farhadi, Yang Li, Kai J Kohlhoff, Vidhya Navalpakkam,
Abstract要約: 多様な視覚コンテンツにまたがる人間の注意と嗜好行動の統一モデルUniARを提案する。自然画像、Webページ、グラフィックデザインにまたがる様々な公開データセットに基づいてUniARをトレーニングし、複数のベンチマークでSOTA性能を達成する。潜在的なアプリケーションには、UI/視覚コンテンツの有効性に関する即時フィードバックの提供や、デザイナとコンテンツ作成モデルによる人間中心の改善のための作成の最適化などが含まれる。
参考スコア（独自算出の注目度）: 12.281060227170792
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Progress in human behavior modeling involves understanding both implicit, early-stage perceptual behavior, such as human attention, and explicit, later-stage behavior, such as subjective preferences or likes. Yet most prior research has focused on modeling implicit and explicit human behavior in isolation; and often limited to a specific type of visual content. We propose UniAR -- a unified model of human attention and preference behavior across diverse visual content. UniAR leverages a multimodal transformer to predict subjective feedback, such as satisfaction or aesthetic quality, along with the underlying human attention or interaction heatmaps and viewing order. We train UniAR on diverse public datasets spanning natural images, webpages, and graphic designs, and achieve SOTA performance on multiple benchmarks across various image domains and behavior modeling tasks. Potential applications include providing instant feedback on the effectiveness of UIs/visual content, and enabling designers and content-creation models to optimize their creation for human-centric improvements.
Abstract（参考訳）: 人間の行動モデリングの進歩は、人間の注意のような暗黙的、初期的な知覚的行動と、主観的嗜好や好意のような明示的、後期的な行動の両方を理解することを含む。しかし、これまでのほとんどの研究は、暗黙的かつ明示的な人間の振る舞いを単独でモデリングすることに重点を置いており、しばしば特定の種類の視覚的コンテンツに限られている。多様な視覚コンテンツにまたがる人間の注意と嗜好行動の統一モデルUniARを提案する。 UniARはマルチモーダルトランスフォーマーを利用して満足度や美的品質などの主観的なフィードバックを予測し、基礎となる人間の注意や相互作用のヒートマップや視聴順序を予測する。我々は、自然画像、Webページ、グラフィックデザインにまたがる様々なパブリックデータセットに基づいてUniARをトレーニングし、様々な画像ドメインと振る舞いモデリングタスクにわたる複数のベンチマークでSOTAパフォーマンスを達成する。潜在的なアプリケーションには、UI/視覚コンテンツの有効性に関する即時フィードバックの提供や、デザイナとコンテンツ作成モデルによる人間中心の改善のための作成の最適化などが含まれる。

関連論文リスト

Testing the limits of fine-tuning to improve reasoning in vision language models [51.58859621164201]
視覚認知タスクにおける視覚刺激と人間の判断を導入し,認知領域間でのパフォーマンスを評価する。我々は、直感的な物理と因果推論のために、地上の真理データに基づいてモデルを微調整する。微調整は、他の視覚的特徴を持つデータや、他の認知領域におけるタスクに対する人間のような堅牢な一般化に寄与しない。
論文参考訳（メタデータ） (2025-02-21T18:58:30Z)
Illusory VQA: Benchmarking and Enhancing Multimodal Models on Visual Illusions [0.03495246564946555]
IllusionMNIST, IllusionFashionMNIST, IllusionAnimals, IllusionChar。これらのデータセットは、視覚錯覚の認識と解釈において、最先端のマルチモーダルモデルの性能を評価するように設計されている。
論文参考訳（メタデータ） (2024-12-11T07:51:18Z)
When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文参考訳（メタデータ） (2024-10-14T17:59:58Z)
Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。我々は500人以上の参加者から行動データの35万件の試行を収集した。次に、一般的な視覚モデルの性能を評価する。
論文参考訳（メタデータ） (2024-09-09T17:59:13Z)
From Category to Scenery: An End-to-End Framework for Multi-Person Human-Object Interaction Recognition in Videos [9.159660801125812]
ビデオベースのヒューマンオブジェクトインタラクション(HOI)認識は、人間とオブジェクトの間の複雑なダイナミクスを探索する。本研究では,シーンフレームワークCATSに新たなエンドツーエンドカテゴリを提案する。我々は,これらの拡張幾何学的視覚的特徴をノードとして構成し,人間とオブジェクトのカテゴリ間の関係を学習する。
論文参考訳（メタデータ） (2024-07-01T02:42:55Z)
Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文参考訳（メタデータ） (2024-06-13T17:59:20Z)
Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文参考訳（メタデータ） (2024-04-17T11:55:45Z)
AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable Diffusion Model [69.12623428463573]
AlignDiffは、人間の好みを定量化し、抽象性をカバーし、拡散計画をガイドする新しいフレームワークである。ユーザがカスタマイズした動作と正確に一致し、効率的に切り替えることができます。選好マッチング,スイッチング,カバーにおいて,他のベースラインに比べて優れた性能を示す。
論文参考訳（メタデータ） (2023-10-03T13:53:08Z)
Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文参考訳（メタデータ） (2022-06-15T03:44:42Z)
Benchmarking human visual search computational models in natural scenes: models comparison and reference datasets [0.0]
我々は、自然の場面で利用可能な最先端のビジュアル検索モデルを選択し、異なるデータセットで評価する。本稿では,ニューラルネットワークに基づくビジュアルサーチモデルと組み合わせて,理想ベイズ探索法の改良を提案する。
論文参考訳（メタデータ） (2021-12-10T19:56:45Z)
TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文参考訳（メタデータ） (2021-04-08T20:01:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。