論文の概要: Multistream Gaze Estimation with Anatomical Eye Region Isolation by
Synthetic to Real Transfer Learning
- arxiv url: http://arxiv.org/abs/2206.09256v2
- Date: Mon, 12 Feb 2024 20:13:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 20:34:07.173115
- Title: Multistream Gaze Estimation with Anatomical Eye Region Isolation by
Synthetic to Real Transfer Learning
- Title(参考訳): 合成トランスファーラーニングによる解剖学的眼領域分離によるマルチストリーム視線推定
- Authors: Zunayed Mahmud, Paul Hungler, Ali Etemad
- Abstract要約: 眼解剖情報を利用して視線表現を学習する新しいニューラルネットワークMSGazeNetを提案する。
当社のフレームワークは,3つの視線推定データセットにおいて,最先端の7.57%,1.85%を超えている。
- 参考スコア(独自算出の注目度): 24.872143206600185
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a novel neural pipeline, MSGazeNet, that learns gaze
representations by taking advantage of the eye anatomy information through a
multistream framework. Our proposed solution comprises two components, first a
network for isolating anatomical eye regions, and a second network for
multistream gaze estimation. The eye region isolation is performed with a U-Net
style network which we train using a synthetic dataset that contains eye region
masks for the visible eyeball and the iris region. The synthetic dataset used
in this stage is procured using the UnityEyes simulator, and consists of 80,000
eye images. Successive to training, the eye region isolation network is then
transferred to the real domain for generating masks for the real-world eye
images. In order to successfully make the transfer, we exploit domain
randomization in the training process, which allows for the synthetic images to
benefit from a larger variance with the help of augmentations that resemble
artifacts. The generated eye region masks along with the raw eye images are
then used together as a multistream input to our gaze estimation network, which
consists of wide residual blocks. The output embeddings from these encoders are
fused in the channel dimension before feeding into the gaze regression layers.
We evaluate our framework on three gaze estimation datasets and achieve strong
performances. Our method surpasses the state-of-the-art by 7.57% and 1.85% on
two datasets, and obtains competitive results on the other. We also study the
robustness of our method with respect to the noise in the data and demonstrate
that our model is less sensitive to noisy data. Lastly, we perform a variety of
experiments including ablation studies to evaluate the contribution of
different components and design choices in our solution.
- Abstract(参考訳): 本研究では,マルチストリーム・フレームワークによる視線解剖情報を活用し,視線表現を学習するニューラル・パイプラインmsgazenetを提案する。
提案手法は,解剖学的眼領域を分離するネットワークと,マルチストリーム視線推定のための第2のネットワークという2つの構成要素からなる。
眼球と虹彩領域の眼球領域マスクを含む合成データセットを用いて訓練するu-netスタイルのネットワークを用いて眼球領域分離を行う。
この段階で使用される合成データセットは、UnityEyesシミュレータを用いて取得され、80,000個の眼画像で構成されている。
トレーニングの後、眼領域分離ネットワークは実領域に移動され、実世界の眼画像のマスクを生成する。
トランスファーを成功させるために,訓練プロセスにおいてドメインランダム化を活用し,人工画像に類似した拡張の助けを借りて,より大きなばらつきの恩恵を受ける。
生成した眼領域マスクと生眼画像とを合わせて,広範囲の残差ブロックからなる視線推定ネットワークへのマルチストリーム入力を行う。
これらのエンコーダからの出力埋め込みは、視線回帰層に入力する前にチャネル次元に融合する。
我々は,3つの視線推定データセットの枠組みを評価し,高い性能を達成する。
提案手法は,2つのデータセットにおいて,最先端を7.57%,1.85%上回り,他方で競争結果を得る。
また,データ中の雑音に対するロバスト性についても検討し,ノイズに対する感度の低下を実証した。
最後に、様々なコンポーネントの寄与とソリューションにおける設計選択を評価するためのアブレーション研究を含む様々な実験を行った。
関連論文リスト
- Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Masking Improves Contrastive Self-Supervised Learning for ConvNets, and Saliency Tells You Where [63.61248884015162]
我々は、畳み込みニューラルネットワークのためのコントラスト学習フレームワークにマスキング操作を組み込むことの負担を軽減することを目的としている。
マスクされた領域が、前景と背景の間に均等に分散されていることを考慮し、塩分濃度の制約を明示的に考慮することを提案する。
論文 参考訳(メタデータ) (2023-09-22T09:58:38Z) - Synthetic optical coherence tomography angiographs for detailed retinal
vessel segmentation without human annotations [12.571349114534597]
本稿では,より高速でリアルなOCTA合成のために,空間コロニー化に基づく網膜血管網の軽量なシミュレーションを行う。
本研究では,3つの公開データセットに対する定量的および定性的実験において,提案手法の優れたセグメンテーション性能を示す。
論文 参考訳(メタデータ) (2023-06-19T14:01:47Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Unsupervised Domain Transfer with Conditional Invertible Neural Networks [83.90291882730925]
条件付き可逆ニューラルネットワーク(cINN)に基づくドメイン転送手法を提案する。
提案手法は本質的に,その可逆的アーキテクチャによるサイクル一貫性を保証し,ネットワークトレーニングを最大限効率的に行うことができる。
提案手法は,2つの下流分類タスクにおいて,現実的なスペクトルデータの生成を可能にし,その性能を向上する。
論文 参考訳(メタデータ) (2023-03-17T18:00:27Z) - Semantic Labeling of High Resolution Images Using EfficientUNets and
Transformers [5.177947445379688]
畳み込みニューラルネットワークとディープトランスを組み合わせた新しいセグメンテーションモデルを提案する。
提案手法は,最先端技術と比較してセグメント化精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-20T12:03:54Z) - Gaze Estimation with Eye Region Segmentation and Self-Supervised
Multistream Learning [8.422257363944295]
本稿では、視線推定のための頑健な視線表現を学習する新しいマルチストリームネットワークを提案する。
まず,目に見える眼球と虹彩をシミュレーターを用いて詳述した眼球領域マスクを含む合成データセットを作成する。
次に、U-Net型モデルを用いて視線領域分割を行い、実際の画像の視線領域マスクを生成する。
論文 参考訳(メタデータ) (2021-12-15T04:44:45Z) - Adversarial Domain Feature Adaptation for Bronchoscopic Depth Estimation [111.89519571205778]
そこで本研究では,深度推定のためのドメイン適応手法を提案する。
提案する2段階構造は,まず,ラベル付き合成画像を用いた深度推定ネットワークを教師付きで訓練する。
実験の結果,提案手法は実画像上でのネットワーク性能をかなりの差で向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-24T08:11:34Z) - Enhancing Photorealism Enhancement [83.88433283714461]
本稿では,畳み込みネットワークを用いた合成画像のリアリズム向上手法を提案する。
一般的に使用されるデータセットのシーンレイアウトの分布を分析し、重要な方法で異なることを見つけます。
近年のイメージ・ツー・イメージ翻訳法と比較して,安定性とリアリズムの大幅な向上が報告されている。
論文 参考訳(メタデータ) (2021-05-10T19:00:49Z) - SharinGAN: Combining Synthetic and Real Data for Unsupervised Geometry
Estimation [18.29202999419042]
本稿では,学習ネットワークにおける合成画像と実画像を組み合わせる新しい手法を提案する。
両画像の型を1つの共有ドメインにマッピングする方法を提案する。
本実験は,2つの重要な領域における最先端技術に対する顕著な改善を実証した。
論文 参考訳(メタデータ) (2020-06-07T02:45:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。