Fugu-MT 論文翻訳(概要): Saliency in Augmented Reality

論文の概要: Saliency in Augmented Reality

arxiv url: http://arxiv.org/abs/2204.08308v1
Date: Mon, 18 Apr 2022 13:25:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-19 16:01:45.140942
Title: Saliency in Augmented Reality
Title（参考訳）: 拡張現実におけるサリエンシ
Authors: Huiyu Duan, Wei Shen, Xiongkuo Min, Danyang Tu, Jing Li and Guangtao Zhai
Abstract要約: 本研究では、背景(BG)シーンとARコンテンツとの相互作用効果を分析し、ARにおける唾液度予測問題について検討する。 60名の被験者を対象に大規模な視線追跡実験を行い,眼球運動データを収集した。実験により,提案手法がベンチマーク法よりも有意な正解率予測問題とAR正解率予測問題の両方に優れていることを示す。
参考スコア（独自算出の注目度）: 36.25503930797423
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rapid development of multimedia technology, Augmented Reality (AR) has become a promising next-generation mobile platform. The primary theory underlying AR is human visual confusion, which allows users to perceive the real-world scenes and augmented contents (virtual-world scenes) simultaneously by superimposing them together. To achieve good Quality of Experience (QoE), it is important to understand the interaction between two scenarios, and harmoniously display AR contents. However, studies on how this superimposition will influence the human visual attention are lacking. Therefore, in this paper, we mainly analyze the interaction effect between background (BG) scenes and AR contents, and study the saliency prediction problem in AR. Specifically, we first construct a Saliency in AR Dataset (SARD), which contains 450 BG images, 450 AR images, as well as 1350 superimposed images generated by superimposing BG and AR images in pair with three mixing levels. A large-scale eye-tracking experiment among 60 subjects is conducted to collect eye movement data. To better predict the saliency in AR, we propose a vector quantized saliency prediction method and generalize it for AR saliency prediction. For comparison, three benchmark methods are proposed and evaluated together with our proposed method on our SARD. Experimental results demonstrate the superiority of our proposed method on both of the common saliency prediction problem and the AR saliency prediction problem over benchmark methods. Our data collection methodology, dataset, benchmark methods, and proposed saliency models will be publicly available to facilitate future research.
Abstract（参考訳）: マルチメディア技術の急速な発展により、拡張現実(ar)は有望な次世代モバイルプラットフォームとなった。 ARの基礎となる理論は人間の視覚的混乱であり、ユーザーはそれらを重ね合わせることで、現実世界のシーンと拡張されたコンテンツ(仮想のシーン)を同時に知覚することができる。優れたQuality of Experience(QoE)を実現するためには、二つのシナリオ間の相互作用を理解し、ARコンテンツを調和して表示することが重要である。しかし、この重ね合わせが人間の視覚にどのように影響するかの研究は不足している。そこで本稿では,背景(BG)シーンとARコンテンツとの相互作用効果を主に分析し,ARにおけるサリエンシ予測問題について検討する。具体的には,まず, 450 bg画像, 450 ar画像を含むarデータセット (sard) と, 3つの混合レベルと組み合わせてbgとar画像を重ね合わせて生成した1350個の重畳画像を構築した。 60名の被験者による大規模眼球追跡実験を行い、眼球運動データを収集した。本稿では,ARの精度をよりよく予測するために,ベクトル量子化サリエンシ予測法を提案し,それをARのサリエンシ予測のために一般化する。比較のために,提案手法とともに3つのベンチマーク手法を提案し,評価した。実験により,提案手法がベンチマーク法よりも有意な正解率予測問題とAR正解率予測問題の両方に優れていることを示す。当社のデータ収集方法論,データセット,ベンチマーク手法,提案するサリエンシーモデルは,今後の研究を促進するために公開される予定だ。

関連論文リスト

Quality Assessment and Distortion-aware Saliency Prediction for AI-Generated Omnidirectional Images [70.49595920462579]
本研究は,AIGODIの品質評価と歪みを考慮したサリエンシ予測問題について検討する。 BLIP-2モデルに基づく共有エンコーダを用いた2つのモデルを提案する。
論文参考訳（メタデータ） (2025-06-27T05:36:04Z)
Predicting Satisfied User and Machine Ratio for Compressed Images: A Unified Approach [58.71009078356928]
圧縮画像のSUR(Satified User Ratio)とSMR(Satified Machine Ratio)を同時に予測するディープラーニングモデルを構築した。実験結果から,提案手法は最先端SURおよびSMR予測法より有意に優れていたことが示唆された。
論文参考訳（メタデータ） (2024-12-23T11:09:30Z)
Enhancing Content Representation for AR Image Quality Assessment Using Knowledge Distillation [3.020452010930984]
本稿では,拡張現実シナリオの画質評価に特化して設計された,深層学習に基づく客観的指標を提案する。 1)参照画像から顕著な特徴を抽出するための自己教師付き事前学習型視覚変換器の微調整,(2)計算シフト表現による歪みの定量化,(3)知覚品質の特徴を捉えるための横断的アテンションベースのデコーダの活用,(4)正規化技術の統合とラベルスムーズ化によるオーバーフィッティング問題への対処,の4つの重要なステップを含む。
論文参考訳（メタデータ） (2024-12-08T17:25:30Z)
CleAR: Robust Context-Guided Generative Lighting Estimation for Mobile Augmented Reality [6.292933471495322]
没入型モバイル拡張現実(AR)体験を実現するためには,高品質な環境照明が不可欠である。異なる種類のプロンプトから高品質な画像を生成することができる生成AIの最近の進歩は、高品質な照明推定の潜在的解決策を示す。我々は、高品質で多様な環境マップを作成できるCleARと呼ばれるジェネレーティブ照明推定システムの設計と実装を行った。
論文参考訳（メタデータ） (2024-11-04T15:37:18Z)
Data Augmentation via Latent Diffusion for Saliency Prediction [67.88936624546076]
残差予測モデルはラベル付きデータの限られた多様性と量によって制約される。本研究では,実世界のシーンの複雑さと変動性を保ちながら,自然画像の編集を行うディープ・サリエンシ・予測のための新しいデータ拡張手法を提案する。
論文参考訳（メタデータ） (2024-09-11T14:36:24Z)
3D Hand Mesh Recovery from Monocular RGB in Camera Space [3.0453197258042213]
本研究では,ルート相対格子とルート回復タスクの並列処理を行うネットワークモデルを提案する。暗黙的な学習手法を2次元ヒートマップに適用し、異なるサブタスク間の2次元キューの互換性を向上させる。提案モデルは最先端のモデルに匹敵する。
論文参考訳（メタデータ） (2024-05-12T05:36:37Z)
RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文参考訳（メタデータ） (2023-12-19T03:39:56Z)
Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文参考訳（メタデータ） (2023-11-30T21:11:20Z)
Investigation of Architectures and Receptive Fields for Appearance-based Gaze Estimation [29.154335016375367]
本稿では、ResNetアーキテクチャのいくつかの単純なパラメータをチューニングすることで、既存のガンマ推定タスクの最先端手法よりも優れていることを示す。 ETH-XGazeが3.64、MPIIFaceGazeが4.50、Gaze360が9.13の3つのデータセットで最先端のパフォーマンスを得る。
論文参考訳（メタデータ） (2023-08-18T14:41:51Z)
LaMAR: Benchmarking Localization and Mapping for Augmented Reality [80.23361950062302]
異種ARデバイスでキャプチャされたリアルな軌跡とセンサストリームを共登録する,包括的キャプチャとGTパイプラインを備えた新しいベンチマークであるLaMARを紹介する。私たちは、ヘッドマウントとハンドヘルドARデバイスで記録された多様な大規模シーンのベンチマークデータセットを公開します。
論文参考訳（メタデータ） (2022-10-19T17:58:17Z)
Confusing Image Quality Assessment: Towards Better Augmented Reality Experience [96.29124666702566]
我々はAR技術を仮想シーンと実シーンの重ね合わせとみなし、視覚的混乱を基本的な理論として紹介する。 ConFusing Image Quality Assessment (CFIQA)データベースが構築され、600個の参照画像と300個の歪画像とをペアに混合して生成する。また、難解な画像品質をよりよく評価するために、CFIQAと呼ばれる客観的な計量も提案されている。
論文参考訳（メタデータ） (2022-04-11T07:03:06Z)
SALYPATH: A Deep-Based Architecture for visual attention prediction [5.068678962285629]
視覚的注意は、画像圧縮、認識、キャプションなどの多くのコンピュータビジョンアプリケーションに有用である。本稿では, 画像の走査パスを, サリエンシモデルの特徴を通して効率的に予測する, いわゆるSALYPATHを提案する。その考え方は、深いベースモデルの能力を利用してスキャンパスを予測し、サリエンシを予測することである。
論文参考訳（メタデータ） (2021-06-29T08:53:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。