Fugu-MT 論文翻訳(概要): Data-driven Head Motion Generation through Natural Gaze-Head Coordination

論文の概要: Data-driven Head Motion Generation through Natural Gaze-Head Coordination

arxiv url: http://arxiv.org/abs/2605.25810v1
Date: Mon, 25 May 2026 13:02:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:20.055897
Title: Data-driven Head Motion Generation through Natural Gaze-Head Coordination
Title（参考訳）: 自然視線-頭部座標によるデータ駆動型頭部運動生成
Authors: Xiaohan Liu, Yilin Wen, Yusuke Sugano,
Abstract要約: 本稿では,大規模な顔画像から時間的視線調整をモデル化するための,データ駆動型アプローチを提案する。本稿では,自然だが多様な視線と頭部の動きを,外見に基づく視線推定器で抽出する自動パイプラインを提案する。
参考スコア（独自算出の注目度）: 6.22500445321484
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present the first data-driven approach to model temporal gaze-head coordination from large-scale in-the-wild facial videos. To obtain training data for generalizable learning, we propose an automatic pipeline that extracts natural yet diverse gaze and head motions with off-the-shelf appearance-based gaze estimators. To capture the probabilistic correlation and temporal dynamics of gaze-head coordination, we build our model on a generative conditional Variational Autoencoder for plausible yet diverse gaze-conditioned head motion generations. We further apply our framework to gaze-controlled facial video generation, where we enable video generation with natural and realistic head motion correlated to the input gaze - an aspect that has not been emphasized before. Human evaluation and quantitative comparisons demonstrate our method's effectiveness and validate our design choices, with evaluators showing statistically significant preference for our approach over baseline methods.
Abstract（参考訳）: 本稿では,大規模な顔画像から時間的視線調整をモデル化するための,データ駆動型アプローチを提案する。一般化可能な学習のためのトレーニングデータを得るため,本研究では,自然だが多様な視線と頭部の動きを,外見に基づく視線推定器を用いて抽出する自動パイプラインを提案する。視線-視線協調の確率的相関と時間的ダイナミクスを捉えるため,我々は,視線-視線-視線-視線-視線-視線-視線運動生成のための生成条件変分オートエンコーダを用いたモデルを構築した。我々はさらに、視線制御された顔映像生成にフレームワークを応用し、入力された視線に相関した自然な、現実的な頭の動きを持つ映像生成を可能にする。人的評価と定量的比較は,提案手法の有効性を実証し,設計選択を検証し,提案手法をベースライン法よりも統計的に有意な選好を示した。

関連論文リスト

Cortical Policy: A Dual-Stream View Transformer for Robotic Manipulation [57.28703268044067]
ロボット操作のための新しいデュアルストリームビュー変換器であるCortical Policyを提案する。われわれのフレームワークは、ロボット操作の新しい視点を提供し、視覚に基づくロボット制御の幅広い応用の可能性を秘めている。
論文参考訳（メタデータ） (2026-03-22T04:18:54Z)
ARGaze: Autoregressive Transformers for Online Egocentric Gaze Estimation [46.30718574969354]
エゴセントリックな視線推定は、カメラ装着者が過去と現在のフレームのみを使用して、ファースト・パーソン・ビデオから見ている場所を予測する。本稿では,視線推定を逐次予測として再構成するARGazeを提案する。オンライン評価では,複数のエゴセントリックなベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2026-02-04T23:33:16Z)
Visual Autoregressive Modelling for Monocular Depth Estimation [69.01449528371916]
本稿では,視覚的自己回帰(VAR)に基づく単眼深度推定手法を提案する。提案手法は,大規模テキスト・画像VARモデルに適応し,スケールワイド・コンディショナル・アップサンプリング機構を導入する。本研究では,屋内ベンチマークにおける制約付きトレーニング条件下での最先端性能と,屋外データセットに適用した場合の強い性能について報告する。
論文参考訳（メタデータ） (2025-12-27T17:08:03Z)
Learning Spatio-Temporal Feature Representations for Video-Based Gaze Estimation [50.05866669110754]
映像に基づく視線推定手法は、複数の画像フレームから人間の視線の本質的な時間的ダイナミクスを捉えることを目的としている。本稿では、CNNバックボーンと専用のチャンネルアテンションと自己注意モジュールを組み合わせたモデルであるSpatio-Temporal Gaze Network(ST-Gaze)を提案する。そこで本研究では,ST-Gazeが個人固有の適応を伴わずとも最先端の性能を達成することを示す。
論文参考訳（メタデータ） (2025-12-19T15:15:58Z)
UniGaze: Towards Universal Gaze Estimation via Large-scale Pre-Training [12.680014448486242]
自己教師付き事前学習による視線推定に,大規模な画像データセットを活用するUniGazeを提案する。本実験により,意味的タスクのための自己教師型アプローチは,視線推定に適用した場合に失敗することが明らかとなった。コストのかかるラベル付きデータへの依存を最小限に抑えながら、UniGazeは複数のデータ領域にわたる一般化を大幅に改善することを示した。
論文参考訳（メタデータ） (2025-02-04T13:24:23Z)
Continual Visual Reinforcement Learning with A Life-Long World Model [55.05017177980985]
視覚力学モデリングのための新しい連続学習手法を提案する。まず,タスク固有の潜在ダイナミクスを学習する長寿命世界モデルを紹介する。そして,探索・保守的行動学習手法を用いて,過去の課題に対する価値推定問題に対処する。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
NeRF-Gaze: A Head-Eye Redirection Parametric Model for Gaze Estimation [37.977032771941715]
本稿では,ニューラルラジアンス場に基づく新しい頭部方向パラメトリックモデルを提案する。我々のモデルは、顔と目を切り離して、別々のニューラルレンダリングを行うことができる。顔、アイデンティティ、照明、視線方向の属性を別々に制御する目的を達成することができる。
論文参考訳（メタデータ） (2022-12-30T13:52:28Z)
Learning-by-Novel-View-Synthesis for Full-Face Appearance-based 3D Gaze Estimation [8.929311633814411]
本研究は,単眼の3次元顔再構成に基づく視線推定訓練データを合成するための新しいアプローチについて検討する。マルチビュー再構成、フォトリアリスティックCGモデル、または生成ニューラルネットワークを用いた以前の研究とは異なり、我々のアプローチは既存のトレーニングデータの頭部ポーズ範囲を操作および拡張することができる。
論文参考訳（メタデータ） (2022-01-20T00:29:45Z)
Implicit Latent Variable Model for Scene-Consistent Motion Forecasting [78.74510891099395]
本稿では,センサデータから直接複雑な都市交通のシーン一貫性のある動き予測を学習することを目的とする。我々は、シーンを相互作用グラフとしてモデル化し、強力なグラフニューラルネットワークを用いてシーンの分散潜在表現を学習する。
論文参考訳（メタデータ） (2020-07-23T14:31:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。