論文の概要: GazeGen: Gaze-Driven User Interaction for Visual Content Generation
- arxiv url: http://arxiv.org/abs/2411.04335v2
- Date: Mon, 18 Nov 2024 00:31:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:29:02.613084
- Title: GazeGen: Gaze-Driven User Interaction for Visual Content Generation
- Title(参考訳): GazeGen: 視覚コンテンツ生成のためのゲイズ駆動ユーザインタラクション
- Authors: He-Yen Hsieh, Ziyun Li, Sai Qian Zhang, Wei-Te Mark Ting, Kao-Den Chang, Barbara De Salvo, Chiao Liu, H. T. Kung,
- Abstract要約: 本稿では,ユーザの視線で示される位置の視覚的コンテンツ(画像とビデオ)を生成するユーザインタラクションシステムであるGazeGenを紹介する。
オブジェクト検出と生成AIの高度な技術を使用して、GazeGenは、画像オブジェクトの視線制御された画像の追加/削除、再配置、および表面スタイルの変更を実行し、静的イメージをビデオに変換する。
GazeGenの中心は、281Kパラメータしか持たない超軽量モデルであるDFT Gazeエージェントである。
- 参考スコア(独自算出の注目度): 11.03973723295504
- License:
- Abstract: We present GazeGen, a user interaction system that generates visual content (images and videos) for locations indicated by the user's eye gaze. GazeGen allows intuitive manipulation of visual content by targeting regions of interest with gaze. Using advanced techniques in object detection and generative AI, GazeGen performs gaze-controlled image adding/deleting, repositioning, and surface style changes of image objects, and converts static images into videos. Central to GazeGen is the DFT Gaze (Distilled and Fine-Tuned Gaze) agent, an ultra-lightweight model with only 281K parameters, performing accurate real-time gaze predictions tailored to individual users' eyes on small edge devices. GazeGen is the first system to combine visual content generation with real-time gaze estimation, made possible exclusively by DFT Gaze. This real-time gaze estimation enables various visual content generation tasks, all controlled by the user's gaze. The input for DFT Gaze is the user's eye images, while the inputs for visual content generation are the user's view and the predicted gaze point from DFT Gaze. To achieve efficient gaze predictions, we derive the small model from a large model (10x larger) via novel knowledge distillation and personal adaptation techniques. We integrate knowledge distillation with a masked autoencoder, developing a compact yet powerful gaze estimation model. This model is further fine-tuned with Adapters, enabling highly accurate and personalized gaze predictions with minimal user input. DFT Gaze ensures low-latency and precise gaze tracking, supporting a wide range of gaze-driven tasks. We validate the performance of DFT Gaze on AEA and OpenEDS2020 benchmarks, demonstrating low angular gaze error and low latency on the edge device (Raspberry Pi 4). Furthermore, we describe applications of GazeGen, illustrating its versatility and effectiveness in various usage scenarios.
- Abstract(参考訳): 本稿では,ユーザの視線で示される場所の視覚的コンテンツ(画像とビデオ)を生成するユーザインタラクションシステムであるGazeGenを紹介する。
GazeGenは、関心のある領域を視線でターゲットすることで、視覚コンテンツを直感的に操作できる。
オブジェクト検出と生成AIの高度な技術を使用して、GazeGenは、画像オブジェクトの視線制御された画像の追加/削除、再配置、および表面スタイルの変更を実行し、静的イメージをビデオに変換する。
GazeGenの中心となるのがDFT Gaze(Distilled and Fine-Tuned Gaze)エージェントで、281Kのパラメータしか持たない超軽量モデルで、小さなエッジデバイス上で個々のユーザの目に合わせて正確なリアルタイムの視線予測を行う。
GazeGenは、DFT Gazeが独占的に実現した、視覚コンテンツ生成とリアルタイム視線推定を組み合わせた最初のシステムである。
このリアルタイム視線推定は、ユーザの視線によって制御される様々な視覚コンテンツ生成タスクを可能にする。
DFT Gazeの入力はユーザの目の画像であり、視覚コンテンツ生成の入力はユーザのビューであり、DFT Gazeから予測される視線点である。
効率的な視線予測を実現するため,新しい知識蒸留と個人適応技術を用いて,大モデル(10倍)から小型モデルを導出する。
我々は、知識蒸留をマスク付きオートエンコーダと統合し、コンパクトで強力な視線推定モデルを開発した。
このモデルはAdaptersでさらに微調整されており、ユーザの入力を最小限にして高精度でパーソナライズされた視線予測を可能にする。
DFT Gazeは低遅延かつ正確な視線追跡を保証し、幅広い視線駆動タスクをサポートする。
AEAおよびOpenEDS2020ベンチマークにおけるDFT Gazeの性能を検証し、エッジデバイス(Raspberry Pi 4)における低角視差と低レイテンシを実証した。
さらに、GazeGenの応用について述べ、その汎用性と様々な利用シナリオにおける有効性について説明する。
関連論文リスト
- Image-GS: Content-Adaptive Image Representation via 2D Gaussians [55.15950594752051]
本稿では,コンテンツ適応型画像表現であるImage-GSを提案する。
異方性2Dガウスアンをベースとして、Image-GSは高いメモリ効率を示し、高速なランダムアクセスをサポートし、自然なレベルのディテールスタックを提供する。
画像-GSの一般的な効率性と忠実性は、最近のニューラルイメージ表現と業界標準テクスチャ圧縮機に対して検証される。
この研究は、機械認識、アセットストリーミング、コンテンツ生成など、適応的な品質とリソース制御を必要とする新しいアプリケーションを開発するための洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-07-02T00:45:21Z) - What Do You See in Vehicle? Comprehensive Vision Solution for In-Vehicle Gaze Estimation [18.155092199205907]
本稿では,車内視線研究を進めるための3つの新しい要素について述べる。
まず、車内視線を捉えた先駆的なデータセットであるIVGazeを紹介する。
第2に、IVGazeを利用した車内視線推定に焦点を当てた。
第3に、GazeDPTRを拡張することで、視線ゾーン分類の新しい戦略を探求する。
論文 参考訳(メタデータ) (2024-03-23T01:22:15Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - DVGaze: Dual-View Gaze Estimation [13.3539097295729]
本稿では、視線推定のためのデュアルビュー視線推定ネットワーク(DV-Gaze)を提案する。
DV-Gazeは、ETH-XGazeとEVEデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-20T16:14:22Z) - NeRF-Gaze: A Head-Eye Redirection Parametric Model for Gaze Estimation [37.977032771941715]
本稿では,ニューラルラジアンス場に基づく新しい頭部方向パラメトリックモデルを提案する。
我々のモデルは、顔と目を切り離して、別々のニューラルレンダリングを行うことができる。
顔、アイデンティティ、照明、視線方向の属性を別々に制御する目的を達成することができる。
論文 参考訳(メタデータ) (2022-12-30T13:52:28Z) - GazeOnce: Real-Time Multi-Person Gaze Estimation [18.16091280655655]
外観に基づく視線推定は、単一の画像から3次元視線方向を予測することを目的としている。
近年の深層学習に基づくアプローチは優れた性能を示すが,複数対人視線をリアルタイムに出力することはできない。
画像中の複数の顔に対する視線方向を同時に予測できるGazeOnceを提案する。
論文 参考訳(メタデータ) (2022-04-20T14:21:47Z) - Weakly-Supervised Physically Unconstrained Gaze Estimation [80.66438763587904]
我々は、人間のインタラクションのビデオから弱教師付き視線推定を行うという未発見の問題に対処する。
本稿では,タスクに特化して設計された新しい損失関数とともに,トレーニングアルゴリズムを提案する。
a)半教師付き視線推定の精度と(b)最先端の物理的に制約のないGaze360視線推定ベンチマーク上でのクロスドメイン一般化の精度を大幅に改善した。
論文 参考訳(メタデータ) (2021-05-20T14:58:52Z) - Self-Learning Transformations for Improving Gaze and Head Redirection [49.61091281780071]
視線や頭部方向の角度をきめ細かな制御で高品質な画像を生成できる新しい顔画像生成モデルを提案する。
これは、視線やヘッドオリエンテーション、照明、色合いなど、多くの外見上の要因を解消する必要がある。
タスク非関連要因の明示的解消は、視線と頭部の向きのより正確なモデリングをもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-23T11:18:37Z) - ETH-XGaze: A Large Scale Dataset for Gaze Estimation under Extreme Head
Pose and Gaze Variation [52.5465548207648]
ETH-XGazeは100万以上の高解像度画像からなる新しい視線推定データセットである。
我々のデータセットは、異なる頭部ポーズと視線角度で視線推定手法のロバスト性を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2020-07-31T04:15:53Z) - Towards End-to-end Video-based Eye-Tracking [50.0630362419371]
画像のみから視線を推定することは、観察不可能な人固有の要因のために難しい課題である。
本稿では,これらの意味的関係と時間的関係を明確に学習することを目的とした,新しいデータセットとアタッチメント手法を提案する。
視覚刺激からの情報と視線画像の融合が,文献に記録された人物と同じような性能を達成することにつながることを実証した。
論文 参考訳(メタデータ) (2020-07-26T12:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。