Fugu-MT 論文翻訳(概要): ALOHA: from Attention to Likes -- a unified mOdel for understanding HumAn responses to diverse visual content

論文の概要: ALOHA: from Attention to Likes -- a unified mOdel for understanding HumAn responses to diverse visual content

arxiv url: http://arxiv.org/abs/2312.10175v2
Date: Thu, 4 Jul 2024 21:01:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 00:22:48.765246
Title: ALOHA: from Attention to Likes -- a unified mOdel for understanding HumAn responses to diverse visual content
Title（参考訳）: ALOHA: From Attention to Likes -- 多様な視覚コンテンツに対するHumAn応答を理解するための統一mOdel
Authors: Peizhao Li, Junfeng He, Gang Li, Rachit Bhargava, Shaolei Shen, Nachiappan Valliappan, Youwei Liang, Hongxiang Gu, Venky Ramachandran, Golnaz Farhadi, Yang Li, Kai J Kohlhoff, Vidhya Navalpakkam,
Abstract要約: ALOHA - 人間の反応を注目から好意へ理解するための統一モデルを提案する。 ALOHAは、アテンションヒートマップ、スキャンパス、視聴順序などの異なる人間の反応を予測し、主観的評価/評価を行う。潜在的なアプリケーションには、UI/デザイン/イメージの有効性に関する即時フィードバックの提供や、視覚コンテンツ生成をさらに最適化するための報酬モデルとしての役割などが含まれる。
参考スコア（独自算出の注目度）: 12.281060227170792
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Progress in human behavior modeling involves understanding both implicit, early-stage perceptual behavior such as human attention and explicit, later-stage behavior such as subjective preferences/likes. Yet, most prior research has focused on modeling implicit and explicit human behavior in isolation; and often limited to a specific type of visual content. Can we build a unified model of human attention and preference behavior that works reliably across diverse types of visual content? Such a model would enable predicting subjective feedback such as satisfaction or aesthetic quality, along with the underlying human attention or interaction heatmaps and viewing order, enabling designers and content-creation models to optimize their creation for human-centric improvements. In this paper, we propose ALOHA -- a unified model for understanding human responses from attention to likes, across diverse visual content. ALOHA leverages a multimodal transformer % featuring distinct prediction heads for each facet, and predicts different human responses such as attention heatmaps, scanpath or viewing order, as well as subjective rating/preference. We train ALOHA on diverse public datasets spanning natural images, webpages and graphic designs, and achieve SOTA performance on multiple benchmarks across different image domains and various behavior modeling tasks. Potential applications include providing instant feedback on the effectiveness of UIs/designs/images, and serving as a reward model to further optimize visual-content creation.
Abstract（参考訳）: 人間の行動モデリングの進歩は、人間の注意のような暗黙的、初期的な知覚的行動と、主観的嗜好や好意のような明示的、後期的な行動の両方を理解することを含む。しかし、これまでのほとんどの研究は、暗黙的かつ明示的な人間の振る舞いを単独でモデリングすることに重点を置いており、しばしば特定の種類の視覚的コンテンツに限られている。多様な視覚コンテンツに対して確実に機能する、人間の注意と嗜好行動の統一モデルを構築することができるだろうか? このようなモデルは、人間の注意や相互作用のヒートマップ、視聴順序とともに、満足感や美的品質などの主観的なフィードバックを予測することを可能にし、デザイナーとコンテンツ作成モデルが、人間中心の改善のために自分たちの創造を最適化することを可能にする。本稿では,視覚的内容の多様さにまたがって,注目から好意への人間の反応を理解する統一モデルALOHAを提案する。 ALOHAは、顔ごとに異なる予測ヘッドを特徴とするマルチモーダルトランスフォーマー%を活用し、アテンションヒートマップ、スキャンパス、視聴順序などの異なる人間の反応を予測し、主観評価/参照を行う。我々は、自然画像、Webページ、グラフィックデザインにまたがる様々なパブリックデータセットに基づいてALOHAをトレーニングし、異なる画像領域と様々な振る舞いモデリングタスクにわたる複数のベンチマークでSOTAパフォーマンスを達成する。潜在的なアプリケーションには、UI/デザイン/イメージの有効性に関する即時フィードバックの提供や、視覚コンテンツ生成をさらに最適化するための報酬モデルとしての役割などが含まれる。

関連論文リスト

SITE: towards Spatial Intelligence Thorough Evaluation [121.1493852562597]
空間知能 (Spatial Intelligence, SI) は、空間的関係の可視化、操作、推論を含む認知能力を表す。 SI Thorough Evaluationに向けたベンチマークデータセットであるSITEを紹介する。ベンチマークの計算には、31の既存のデータセットに関するボトムアップ調査と、認知科学の3つの分類システムに基づくトップダウン戦略を組み合わせる。
論文参考訳（メタデータ） (2025-05-08T17:45:44Z)
Testing the limits of fine-tuning to improve reasoning in vision language models [51.58859621164201]
視覚認知タスクにおける視覚刺激と人間の判断を導入し,認知領域間でのパフォーマンスを評価する。我々は、直感的な物理と因果推論のために、地上の真理データに基づいてモデルを微調整する。微調整は、他の視覚的特徴を持つデータや、他の認知領域におけるタスクに対する人間のような堅牢な一般化に寄与しない。
論文参考訳（メタデータ） (2025-02-21T18:58:30Z)
Illusory VQA: Benchmarking and Enhancing Multimodal Models on Visual Illusions [0.03495246564946555]
IllusionMNIST, IllusionFashionMNIST, IllusionAnimals, IllusionChar。これらのデータセットは、視覚錯覚の認識と解釈において、最先端のマルチモーダルモデルの性能を評価するように設計されている。
論文参考訳（メタデータ） (2024-12-11T07:51:18Z)
When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文参考訳（メタデータ） (2024-10-14T17:59:58Z)
Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。我々は500人以上の参加者から行動データの35万件の試行を収集した。次に、一般的な視覚モデルの性能を評価する。
論文参考訳（メタデータ） (2024-09-09T17:59:13Z)
From Category to Scenery: An End-to-End Framework for Multi-Person Human-Object Interaction Recognition in Videos [9.159660801125812]
ビデオベースのヒューマンオブジェクトインタラクション(HOI)認識は、人間とオブジェクトの間の複雑なダイナミクスを探索する。本研究では,シーンフレームワークCATSに新たなエンドツーエンドカテゴリを提案する。我々は,これらの拡張幾何学的視覚的特徴をノードとして構成し,人間とオブジェクトのカテゴリ間の関係を学習する。
論文参考訳（メタデータ） (2024-07-01T02:42:55Z)
Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文参考訳（メタデータ） (2024-06-13T17:59:20Z)
Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文参考訳（メタデータ） (2024-04-17T11:55:45Z)
AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable Diffusion Model [69.12623428463573]
AlignDiffは、人間の好みを定量化し、抽象性をカバーし、拡散計画をガイドする新しいフレームワークである。ユーザがカスタマイズした動作と正確に一致し、効率的に切り替えることができます。選好マッチング,スイッチング,カバーにおいて,他のベースラインに比べて優れた性能を示す。
論文参考訳（メタデータ） (2023-10-03T13:53:08Z)
Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文参考訳（メタデータ） (2022-06-15T03:44:42Z)
Benchmarking human visual search computational models in natural scenes: models comparison and reference datasets [0.0]
我々は、自然の場面で利用可能な最先端のビジュアル検索モデルを選択し、異なるデータセットで評価する。本稿では,ニューラルネットワークに基づくビジュアルサーチモデルと組み合わせて,理想ベイズ探索法の改良を提案する。
論文参考訳（メタデータ） (2021-12-10T19:56:45Z)
TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文参考訳（メタデータ） (2021-04-08T20:01:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。