論文の概要: Toward Super-Resolution for Appearance-Based Gaze Estimation
- arxiv url: http://arxiv.org/abs/2303.10151v1
- Date: Fri, 17 Mar 2023 17:40:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 13:29:52.746090
- Title: Toward Super-Resolution for Appearance-Based Gaze Estimation
- Title(参考訳): 外観に基づく視線推定のための超解法に向けて
- Authors: Galen O'Shea, Majid Komeili
- Abstract要約: 超解像度は視覚的観点から画質を改善することが示されている。
本稿では,SwinIR超解像モデルに基づく2段階のフレームワークを提案する。
自己教師付き学習は、ダウンストリームタスクに必要なラベル付きデータの量を減らすために、ラベルのないデータから学習することを目的としている。
- 参考スコア(独自算出の注目度): 4.594159253008448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gaze tracking is a valuable tool with a broad range of applications in
various fields, including medicine, psychology, virtual reality, marketing, and
safety. Therefore, it is essential to have gaze tracking software that is
cost-efficient and high-performing. Accurately predicting gaze remains a
difficult task, particularly in real-world situations where images are affected
by motion blur, video compression, and noise. Super-resolution has been shown
to improve image quality from a visual perspective. This work examines the
usefulness of super-resolution for improving appearance-based gaze tracking. We
show that not all SR models preserve the gaze direction. We propose a two-step
framework based on SwinIR super-resolution model. The proposed method
consistently outperforms the state-of-the-art, particularly in scenarios
involving low-resolution or degraded images. Furthermore, we examine the use of
super-resolution through the lens of self-supervised learning for gaze
prediction. Self-supervised learning aims to learn from unlabelled data to
reduce the amount of required labeled data for downstream tasks. We propose a
novel architecture called SuperVision by fusing an SR backbone network to a
ResNet18 (with some skip connections). The proposed SuperVision method uses 5x
less labeled data and yet outperforms, by 15%, the state-of-the-art method of
GazeTR which uses 100% of training data.
- Abstract(参考訳): 視線追跡は、医療、心理学、バーチャルリアリティー、マーケティング、安全など、さまざまな分野の幅広い応用を持つ貴重なツールである。
したがって、コスト効率が高く高性能な視線追跡ソフトウェアを持つことが不可欠である。
特に、映像が動きのぼやけ、ビデオ圧縮、ノイズによって影響を受ける現実の状況では、視線を正確に予測することは難しい課題である。
超解像度は視覚的観点から画質を改善することが示されている。
本研究は、外観に基づく視線追跡を改善するための超解像の有用性を検討する。
すべてのSRモデルが視線方向を保存するわけではないことを示す。
swinirスーパーレゾリューションモデルに基づく2段階フレームワークを提案する。
提案手法は,特に低解像度画像や劣化画像のシナリオにおいて,最先端の手法を一貫して上回っている。
さらに,視線予測のための自己教師付き学習レンズによる超解像の利用について検討した。
自己教師付き学習は、ラベルなしのデータから学習し、下流タスクに必要なラベル付きデータ量を削減することを目的としている。
本稿では,SRバックボーンネットワークをResNet18(スキップ接続)に融合させることにより,SuperVisionと呼ばれる新しいアーキテクチャを提案する。
提案手法では,100%のトレーニングデータを用いたgazingtrの最先端手法である5倍少ないラベルデータを用いるが,15%の精度向上が期待できる。
関連論文リスト
- A General Method to Incorporate Spatial Information into Loss Functions for GAN-based Super-resolution Models [25.69505971220203]
GAN(Generative Adversarial Networks)は超解像問題において優れた性能を示した。
GANは、予期せぬアーチファクトやノイズなど、出力に副作用をもたらすことが多い。
本稿では,多くのGANベース超解像(SR)モデルにおいて,トレーニングプロセスに必須空間情報を導入することで,効果的に活用できる汎用手法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:29:16Z) - Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - VIBR: Learning View-Invariant Value Functions for Robust Visual Control [3.2307366446033945]
VIBR (View-Invariant Bellman Residuals) は、マルチビュートレーニングと不変予測を組み合わせて、RLベースのビジュモータ制御における分配ギャップを削減する手法である。
視覚摂動の高い複雑なビジュオモータ制御環境において,VIBRは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-14T14:37:34Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - L2CS-Net: Fine-Grained Gaze Estimation in Unconstrained Environments [2.5234156040689237]
制約のない環境での視線予測のための頑健なCNNモデルを提案する。
我々は、ネットワーク学習を改善し、一般化を高めるために、各角度に2つの同一の損失を用いる。
提案モデルでは,MPIIGazeデータセットとGaze360データセットを用いて3.92degと10.41degの最先端精度を実現する。
論文 参考訳(メタデータ) (2022-03-07T12:35:39Z) - High Quality Segmentation for Ultra High-resolution Images [72.97958314291648]
超高分解能セグメンテーション精錬作業のための連続精細モデルを提案する。
提案手法は画像分割精細化において高速かつ効果的である。
論文 参考訳(メタデータ) (2021-11-29T11:53:06Z) - Exploiting Raw Images for Real-Scene Super-Resolution [105.18021110372133]
本稿では,合成データと実撮影画像とのギャップを埋めるために,実シーンにおける単一画像の超解像化の問題について検討する。
本稿では,デジタルカメラの撮像過程を模倣して,よりリアルなトレーニングデータを生成する手法を提案する。
また、原画像に記録された放射情報を活用するために、2分岐畳み込みニューラルネットワークを開発した。
論文 参考訳(メタデータ) (2021-02-02T16:10:15Z) - Self-Learning Transformations for Improving Gaze and Head Redirection [49.61091281780071]
視線や頭部方向の角度をきめ細かな制御で高品質な画像を生成できる新しい顔画像生成モデルを提案する。
これは、視線やヘッドオリエンテーション、照明、色合いなど、多くの外見上の要因を解消する必要がある。
タスク非関連要因の明示的解消は、視線と頭部の向きのより正確なモデリングをもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-23T11:18:37Z) - Unsupervised Foveal Vision Neural Networks with Top-Down Attention [0.3058685580689604]
本稿では,教師なし学習技術のみを用いたボトムアップ・サリエンシーとトップダウン・アテンションの融合を提案する。
トロントおよびCAT2000データベース上で提案したガンマ塩分濃度法の性能を検証した。
また,CNNの上位層に適用したガンマ塩分度に基づくトップダウンアテンション機構を開発し,背景が乱れの強いマルチオブジェクト画像や画像のシーン理解を改善する。
論文 参考訳(メタデータ) (2020-10-18T20:55:49Z) - Rethinking Data Augmentation for Image Super-resolution: A Comprehensive
Analysis and a New Strategy [21.89072742618842]
超分解能タスクに適用された既存の拡張手法を包括的に分析する。
我々は、低解像度のパッチをカットし、それに対応する高解像度の画像領域にペーストするCutBlurを提案する。
提案手法は, 様々なシナリオにおいて連続的に, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-04-01T13:49:38Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。