Fugu-MT 論文翻訳(概要): 3D Prior is All You Need: Cross-Task Few-shot 2D Gaze Estimation

論文の概要: 3D Prior is All You Need: Cross-Task Few-shot 2D Gaze Estimation

arxiv url: http://arxiv.org/abs/2502.04074v1
Date: Thu, 06 Feb 2025 13:37:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-07 15:30:40.780127
Title: 3D Prior is All You Need: Cross-Task Few-shot 2D Gaze Estimation
Title（参考訳）: 3Dプリミティブは、クロスタスクで2Dガゼ推定(動画あり)
Authors: Yihua Cheng, Hengfei Wang, Zhongqun Zhang, Yang Yue, Bo Eun Kim, Feng Lu, Hyung Jin Chang,
Abstract要約: 本研究では,未確認デバイス上での2次元視線予測に事前学習した3次元視線推定ネットワークを適用することを目的とした,クロスタスクな2次元視線推定手法を提案する。このタスクは、3Dと2Dの視線、未知の画面ポーズ、限られたトレーニングデータとのドメインギャップのため、非常に難しい。我々は,MPIIGaze,EVE,GazeCaptureの各データセットに対して,それぞれノートパソコン,デスクトップコンピュータ,モバイルデバイス上で収集した手法を評価する。
参考スコア（独自算出の注目度）: 27.51272922798475
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: 3D and 2D gaze estimation share the fundamental objective of capturing eye movements but are traditionally treated as two distinct research domains. In this paper, we introduce a novel cross-task few-shot 2D gaze estimation approach, aiming to adapt a pre-trained 3D gaze estimation network for 2D gaze prediction on unseen devices using only a few training images. This task is highly challenging due to the domain gap between 3D and 2D gaze, unknown screen poses, and limited training data. To address these challenges, we propose a novel framework that bridges the gap between 3D and 2D gaze. Our framework contains a physics-based differentiable projection module with learnable parameters to model screen poses and project 3D gaze into 2D gaze. The framework is fully differentiable and can integrate into existing 3D gaze networks without modifying their original architecture. Additionally, we introduce a dynamic pseudo-labelling strategy for flipped images, which is particularly challenging for 2D labels due to unknown screen poses. To overcome this, we reverse the projection process by converting 2D labels to 3D space, where flipping is performed. Notably, this 3D space is not aligned with the camera coordinate system, so we learn a dynamic transformation matrix to compensate for this misalignment. We evaluate our method on MPIIGaze, EVE, and GazeCapture datasets, collected respectively on laptops, desktop computers, and mobile devices. The superior performance highlights the effectiveness of our approach, and demonstrates its strong potential for real-world applications.
Abstract（参考訳）: 3Dと2Dの視線推定は眼球運動を捉える基本的な目的を共有しているが、伝統的に2つの異なる研究領域として扱われる。本稿では,数枚のトレーニング画像のみを用いて,未知のデバイス上での2次元視線予測に事前学習した3次元視線推定ネットワークを適用することを目的とした,クロスタスクの2次元視線推定手法を提案する。このタスクは、3Dと2Dの視線、未知の画面ポーズ、限られたトレーニングデータとのドメインギャップのため、非常に難しい。これらの課題に対処するため,我々は3次元視線と2次元視線とのギャップを埋める新しい枠組みを提案する。本フレームワークは,3次元視線を2次元視線に投影し,画面ポーズをモデル化するための学習可能なパラメータを備えた物理ベースの微分射影モジュールを含む。フレームワークは完全に差別化可能で、元のアーキテクチャを変更することなく既存の3Dガゼネットワークに統合することができる。さらに,フリップ画像に対する動的擬似ラベリング手法を導入し,未知の画面ポーズにより2次元ラベルが特に困難であることを示す。この問題を解決するために、2次元ラベルを3次元空間に変換してプロジェクション処理を逆転し、フリップを行う。特に、この3D空間はカメラ座標系と一致しないので、この不整合を補うために動的変換行列を学習する。我々は,MPIIGaze,EVE,GazeCaptureの各データセットに対して,それぞれノートパソコン,デスクトップコンピュータ,モバイルデバイス上で収集した手法を評価する。優れたパフォーマンスは、我々のアプローチの有効性を強調し、現実世界のアプリケーションにその強力な可能性を示す。

関連論文リスト

GA3CE: Unconstrained 3D Gaze Estimation with Gaze-Aware 3D Context Encoding [5.908352631543411]
本研究では,映像中の被写体と物体の空間的関係を学習する新しい3次元視線推定手法を提案する。本手法は、被検者の眼球のクローズアップビューが利用できない場合など、制約のない設定を対象とする。
論文参考訳（メタデータ） (2025-05-15T19:24:15Z)
Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。 UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文参考訳（メタデータ） (2025-03-13T17:56:22Z)
Mocap-2-to-3: Lifting 2D Diffusion-Based Pretrained Models for 3D Motion Capture [31.82852393452607]
Mocap-2-to-3は複雑な3D動作を2Dポーズに分解する新しいフレームワークである。我々は2次元データを活用し,多様なシナリオにおける3次元運動再構成を向上する。実世界のデータセット上でのモデルの性能を評価する。
論文参考訳（メタデータ） (2025-03-05T06:32:49Z)
2D or not 2D: How Does the Dimensionality of Gesture Representation Affect 3D Co-Speech Gesture Generation? [5.408549711581793]
本研究では,2次元もしくは3次元の関節座標を訓練データとして用いることが,音声から身近な深層生成モデルの性能に及ぼす影響について検討した。生成した2Dポーズシーケンスを3Dに変換するためのリフトモデルを用いて,2Dで生成したジェスチャと3Dで生成したジェスチャを直接3Dスタックで生成し,次に3Dに変換する方法を評価する。
論文参考訳（メタデータ） (2024-09-16T15:06:12Z)
VPOcc: Exploiting Vanishing Point for 3D Semantic Occupancy Prediction [24.947072696837118]
3Dシーンを意味的かつ空間的に理解することは、ロボットや自動運転車の安全なナビゲーションに不可欠である。カメラベースの3Dセマンティック占有予測は、2D画像から完全なボクセルグリッドを推定する。このタスクは本質的に2D-3Dの相違に悩まされ、カメラからの距離に応じて3D空間で同じ大きさの物体が異なる大きさの2D画像に現れる。本稿では,2D-3Dの相違を画素レベルと特徴レベルの両方で緩和するために,消失点(VP)を利用するVPOccという新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-07T05:23:52Z)
Lift3D: Zero-Shot Lifting of Any 2D Vision Model to 3D [95.14469865815768]
2Dビジョンモデルは、大規模な2D画像データセットによって実現されるセマンティックセグメンテーション、スタイル転送、シーン編集に使用できる。しかし、シーン編集のような単一の2Dビジョン演算子を3Dに拡張するには、通常、そのタスクに特化した非常に創造的な方法が必要である。本稿では,いくつかの視覚モデルによって生成された特徴空間の未知のビューを予測するためのLift3Dを提案する。問題のあるタスクに特化した最先端の手法よりも優れています。
論文参考訳（メタデータ） (2024-03-27T18:13:16Z)
PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。 PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文参考訳（メタデータ） (2023-10-12T17:59:57Z)
NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文参考訳（メタデータ） (2023-09-26T02:09:52Z)
Multi-View Representation is What You Need for Point-Cloud Pre-Training [22.55455166875263]
本稿では,事前学習した2次元ネットワークを利用して3次元表現を学習するポイントクラウド事前学習手法を提案する。我々は,新しい2次元知識伝達損失の助けを借りて,3次元特徴抽出ネットワークを訓練する。実験結果から,事前学習したモデルを様々な下流タスクに転送できることが判明した。
論文参考訳（メタデータ） (2023-06-05T03:14:54Z)
FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文参考訳（メタデータ） (2021-04-22T09:35:35Z)
3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文参考訳（メタデータ） (2021-04-06T02:22:24Z)
Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。 3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文参考訳（メタデータ） (2020-08-04T13:56:19Z)
HOPE-Net: A Graph-based Model for Hand-Object Pose Estimation [7.559220068352681]
本稿では,2次元と3次元で手とオブジェクトのポーズをリアルタイムに推定するHOPE-Netという軽量モデルを提案する。我々のネットワークは2つの適応グラフ畳み込みニューラルネットワークのカスケードを用いており、1つは手関節と物体角の2D座標を推定し、もう1つは2D座標を3Dに変換する。
論文参考訳（メタデータ） (2020-03-31T19:01:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。