論文の概要: Enhancing Content Representation for AR Image Quality Assessment Using Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2412.06003v1
- Date: Sun, 08 Dec 2024 17:25:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:53:25.525301
- Title: Enhancing Content Representation for AR Image Quality Assessment Using Knowledge Distillation
- Title(参考訳): 知識蒸留を用いたAR画像品質評価のためのコンテンツ表現の強化
- Authors: Aymen Sekhri, Seyed Ali Amirshahi, Mohamed-Chaker Larabi,
- Abstract要約: 本稿では,拡張現実シナリオの画質評価に特化して設計された,深層学習に基づく客観的指標を提案する。
1)参照画像から顕著な特徴を抽出するための自己教師付き事前学習型視覚変換器の微調整,(2)計算シフト表現による歪みの定量化,(3)知覚品質の特徴を捉えるための横断的アテンションベースのデコーダの活用,(4)正規化技術の統合とラベルスムーズ化によるオーバーフィッティング問題への対処,の4つの重要なステップを含む。
- 参考スコア(独自算出の注目度): 3.020452010930984
- License:
- Abstract: Augmented Reality (AR) is a major immersive media technology that enriches our perception of reality by overlaying digital content (the foreground) onto physical environments (the background). It has far-reaching applications, from entertainment and gaming to education, healthcare, and industrial training. Nevertheless, challenges such as visual confusion and classical distortions can result in user discomfort when using the technology. Evaluating AR quality of experience becomes essential to measure user satisfaction and engagement, facilitating the refinement necessary for creating immersive and robust experiences. Though, the scarcity of data and the distinctive characteristics of AR technology render the development of effective quality assessment metrics challenging. This paper presents a deep learning-based objective metric designed specifically for assessing image quality for AR scenarios. The approach entails four key steps, (1) fine-tuning a self-supervised pre-trained vision transformer to extract prominent features from reference images and distilling this knowledge to improve representations of distorted images, (2) quantifying distortions by computing shift representations, (3) employing cross-attention-based decoders to capture perceptual quality features, and (4) integrating regularization techniques and label smoothing to address the overfitting problem. To validate the proposed approach, we conduct extensive experiments on the ARIQA dataset. The results showcase the superior performance of our proposed approach across all model variants, namely TransformAR, TransformAR-KD, and TransformAR-KD+ in comparison to existing state-of-the-art methods.
- Abstract(参考訳): Augmented Reality(AR)は、デジタルコンテンツ(フォアグラウンド)を物理的な環境(背景)にオーバーレイすることで、現実に対する認識を強化する主要な没入型メディア技術である。
エンターテイメントやゲームから教育、医療、工業訓練まで、幅広い応用がある。
それでも、視覚的混乱や古典的な歪みといった課題は、この技術を使う際のユーザの不快感を招きかねない。
ARの質を評価することは、ユーザの満足度とエンゲージメントを測るのに不可欠であり、没入的で堅牢なエクスペリエンスを作るのに必要な改善を促進する。
しかし、データの不足とAR技術の特長は、効果的な品質評価指標の開発を困難にしている。
本稿では,ARシナリオの画質評価に特化して設計された,ディープラーニングに基づく客観的指標を提案する。
提案手法は,(1)参照画像から顕著な特徴を抽出し,その知識を蒸留して歪み画像の表現を改善するための自己指導型事前学習型視覚変換器の微調整,(2)計算シフト表現による歪みの定量化,(3)知覚的品質特徴を捉えるための相互注意型デコーダの活用,(4)正規化技術とラベルスムーシングの統合によるオーバーフィッティング問題への対処,の4つの重要なステップを含む。
提案手法を検証するため,ARIQAデータセットについて広範な実験を行った。
その結果,既存の最先端手法と比較して,TransformAR,TransformAR-KD,TransformAR-KD+の3種類のモデルに対して,提案手法の優れた性能を示した。
関連論文リスト
- A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)とは、ノイズ、ぼかし、気象効果などの劣化を除去しながら、画像の視覚的品質を改善する過程である。
従来のIR手法は、一般的に特定の種類の劣化をターゲットとしており、複雑な歪みを伴う現実のシナリオにおいて、その効果を制限している。
オールインワン画像復元(AiOIR)パラダイムが登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-10-19T11:11:09Z) - ST-SACLF: Style Transfer Informed Self-Attention Classifier for Bias-Aware Painting Classification [9.534646914709018]
絵画分類は、デジタル美術館や古典美術館の美術品を整理し、発見し、提案する上で重要な役割を担っている。
既存の手法は、トレーニング中に実世界の知識を芸術的イメージに適応させることに苦労し、異なるデータセットを扱う際にはパフォーマンスが低下する。
適応インスタンス正規化(AdaIN)を使用したスタイル転送(Style Transfer)により、さまざまなスタイル間のギャップを埋める、より多くのデータを生成します。
40のトレーニングエポック上でResNet-50のバックボーンを使用して、87.24%の精度を実現した。
論文 参考訳(メタデータ) (2024-08-03T17:31:58Z) - DSL-FIQA: Assessing Facial Image Quality via Dual-Set Degradation Learning and Landmark-Guided Transformer [23.70791030264281]
Generic Face Image Quality Assessment (GFIQA) は、顔画像の知覚的品質を評価する。
本稿では,GFIQAのトランスフォーマーに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T23:11:25Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - OCR is All you need: Importing Multi-Modality into Image-based Defect Detection System [7.1083241462091165]
我々は,光学的文字認識(OCR)を基本とする外部モダリティ誘導データマイニングフレームワークを導入し,画像から統計的特徴を抽出する。
提案手法の重要な側面は、単一のモーダル認識モデルを用いて抽出された外部モーダル特徴のアライメントであり、畳み込みニューラルネットワークによって符号化された画像特徴である。
本手法は欠陥検出モデルのリコール率を大幅に向上させ,挑戦シナリオにおいても高い堅牢性を維持する。
論文 参考訳(メタデータ) (2024-03-18T07:41:39Z) - Fiducial Focus Augmentation for Facial Landmark Detection [4.433764381081446]
本稿では,モデルによる顔構造理解を高めるために,新しい画像強調手法を提案する。
我々は,Deep Canonical correlation Analysis (DCCA) に基づく損失を考慮した,シームズアーキテクチャに基づくトレーニング機構を採用している。
提案手法は,様々なベンチマークデータセットにおいて,最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2024-02-23T01:34:00Z) - Learning from Multi-Perception Features for Real-Word Image
Super-resolution [87.71135803794519]
入力画像の複数の知覚的特徴を利用する新しいSR手法MPF-Netを提案する。
本稿では,MPFEモジュールを組み込んで,多様な知覚情報を抽出する手法を提案する。
また、モデルの学習能力を向上する対照的な正規化項(CR)も導入する。
論文 参考訳(メタデータ) (2023-05-26T07:35:49Z) - Helping Visually Impaired People Take Better Quality Pictures [52.03016269364854]
我々は、視覚障害者が共通の技術的歪みの発生を最小限に抑えるためのツールを開発する。
また、ユーザによる品質問題の緩和を支援する、プロトタイプのフィードバックシステムも作成しています。
論文 参考訳(メタデータ) (2023-05-14T04:37:53Z) - Real-World Image Super-Resolution by Exclusionary Dual-Learning [98.36096041099906]
実世界の画像超解像は,高品質な画像を得るための実用的な画像復元問題である。
深層学習に基づく手法は、現実世界の超解像データセットの復元に期待できる品質を実現している。
本稿では,RWSR-EDL(Real-World Image Super-Resolution by Exclusionary Dual-Learning)を提案する。
論文 参考訳(メタデータ) (2022-06-06T13:28:15Z) - MSTRIQ: No Reference Image Quality Assessment Based on Swin Transformer
with Multi-Stage Fusion [8.338999282303755]
本稿では,Swin Transformerに基づく新しいアルゴリズムを提案する。
ローカル機能とグローバル機能の両方から情報を集約して、品質をより正確に予測する。
NTIRE 2022 Perceptual Image Quality Assessment Challengeのノーレファレンストラックで2位。
論文 参考訳(メタデータ) (2022-05-20T11:34:35Z) - Confusing Image Quality Assessment: Towards Better Augmented Reality
Experience [96.29124666702566]
我々はAR技術を仮想シーンと実シーンの重ね合わせとみなし、視覚的混乱を基本的な理論として紹介する。
ConFusing Image Quality Assessment (CFIQA)データベースが構築され、600個の参照画像と300個の歪画像とをペアに混合して生成する。
また、難解な画像品質をよりよく評価するために、CFIQAと呼ばれる客観的な計量も提案されている。
論文 参考訳(メタデータ) (2022-04-11T07:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。