論文の概要: Modeling State Shifting via Local-Global Distillation for Event-Frame Gaze Tracking
- arxiv url: http://arxiv.org/abs/2404.00548v2
- Date: Fri, 28 Jun 2024 14:13:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 21:25:00.705959
- Title: Modeling State Shifting via Local-Global Distillation for Event-Frame Gaze Tracking
- Title(参考訳): イベントフレームゲゼ追跡のための局所グロバル蒸留による状態シフトのモデル化
- Authors: Jiading Li, Zhiyu Zhu, Jinhui Hou, Junhui Hou, Jinjian Wu,
- Abstract要約: 本稿では,イベントデータとフレームデータの両方を用いた受動的視線推定の問題に取り組む。
我々は、現在の状態からいくつかの事前登録されたアンカー状態に移行する状態の定量化として、視線推定を再構成する。
大規模視線推定ネットワークを直接学習する代わりに,地域の専門家グループと学生ネットワークを連携させることにより,一般化能力の向上を図る。
- 参考スコア(独自算出の注目度): 61.44701715285463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles the problem of passive gaze estimation using both event and frame data. Considering the inherently different physiological structures, it is intractable to accurately estimate gaze purely based on a given state. Thus, we reformulate gaze estimation as the quantification of the state shifting from the current state to several prior registered anchor states. Specifically, we propose a two-stage learning-based gaze estimation framework that divides the whole gaze estimation process into a coarse-to-fine approach involving anchor state selection and final gaze location. Moreover, to improve the generalization ability, instead of learning a large gaze estimation network directly, we align a group of local experts with a student network, where a novel denoising distillation algorithm is introduced to utilize denoising diffusion techniques to iteratively remove inherent noise in event data. Extensive experiments demonstrate the effectiveness of the proposed method, which surpasses state-of-the-art methods by a large margin of 15$\%$. The code will be publicly available at https://github.com/jdjdli/Denoise_distill_EF_gazetracker.
- Abstract(参考訳): 本稿では,イベントデータとフレームデータの両方を用いた受動的視線推定の問題に取り組む。
本質的に異なる生理構造を考えると、与えられた状態に基づいて視線を正確に推定することは困難である。
したがって、現在の状態からいくつかの事前登録されたアンカー状態にシフトする状態の定量化として、視線推定を再構成する。
具体的には、2段階の学習に基づく視線推定フレームワークを提案し、視線全体を、アンカー状態の選択と最終視線位置を含む粗い微細なアプローチに分割する。
さらに,大規模な視線推定ネットワークを直接学習する代わりに,局所的な専門家のグループを学生ネットワークと整合させることにより,新たなデノナイズ蒸留アルゴリズムを導入し,デノナイズ拡散技術を用いてイベントデータ中の固有ノイズを反復的に除去する。
大規模実験により, 最先端手法を15$\%の差で超越した提案手法の有効性が示された。
コードはhttps://github.com/jdjdli/Denoise_distill_EF_gazetrackerで公開されている。
関連論文リスト
- Multistep Inverse Is Not All You Need [87.62730694973696]
実世界の制御環境では、観測空間は不要に高次元であり、時間関連ノイズにさらされることが多い。
したがって、観測空間を制御関連変数のより単純な空間にマッピングするエンコーダを学ぶことが望ましい。
本稿では,多段階逆予測と遅延フォワードモデルを組み合わせた新しいアルゴリズムACDFを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:36:01Z) - DiffSF: Diffusion Models for Scene Flow Estimation [17.512660491303684]
本稿では,変圧器を用いたシーンフロー推定とデノナイズ拡散モデルを組み合わせたDiffSFを提案する。
拡散過程は, 従来の手法に比べて, 予測の堅牢性を大幅に向上させることを示す。
異なる初期状態で複数回サンプリングすることにより、復調過程は複数の仮説を予測し、出力の不確実性を測定することができる。
論文 参考訳(メタデータ) (2024-03-08T14:06:15Z) - Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - Score-based Data Assimilation [7.215767098253208]
軌道推定のためのスコアベースのデータ同化を導入する。
我々は、任意の長さの軌道のスコアを、短いセグメントにまたがって一連のスコアに分解できるというキーインサイトに基づいて、状態軌道のスコアに基づく生成モデルを学ぶ。
論文 参考訳(メタデータ) (2023-06-18T14:22:03Z) - LatentGaze: Cross-Domain Gaze Estimation through Gaze-Aware Analytic
Latent Code Manipulation [0.0]
本稿では,データ駆動型手法を応用した視線認識型解析操作手法を提案する。
GANベースのエンコーダジェネレータプロセスを利用することで、入力画像がターゲット領域からソース領域イメージにシフトし、視線推定器が十分に認識できる。
論文 参考訳(メタデータ) (2022-09-21T08:05:53Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Appearance-based Gaze Estimation With Deep Learning: A Review and Benchmark [14.306488668615883]
本稿では,ディープラーニングを用いた外見に基づく視線推定手法の体系的レビューを行う。
顔/目の検出,データ修正,2D/3D視線変換,視線原点変換など,データ前処理と後処理の方法を要約する。
論文 参考訳(メタデータ) (2021-04-26T15:53:03Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。