論文の概要: Rotation-Constrained Cross-View Feature Fusion for Multi-View
Appearance-based Gaze Estimation
- arxiv url: http://arxiv.org/abs/2305.12704v3
- Date: Wed, 15 Nov 2023 09:02:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 20:39:40.265367
- Title: Rotation-Constrained Cross-View Feature Fusion for Multi-View
Appearance-based Gaze Estimation
- Title(参考訳): 多視点視線推定のための回転拘束型クロスビュー特徴融合
- Authors: Yoichiro Hisadome, Tianyi Wu, Jiawei Qin, Yusuke Sugano
- Abstract要約: 本研究は、一般化可能な多視点視線推定タスクと、この問題に対処するためのクロスビュー特徴融合法を提案する。
ペア画像に加えて,2台のカメラ間の相対回転行列を付加入力とする。
提案するネットワークは,相対回転を制約として,回転可能な特徴表現を抽出することを学ぶ。
- 参考スコア(独自算出の注目度): 16.43119580796718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Appearance-based gaze estimation has been actively studied in recent years.
However, its generalization performance for unseen head poses is still a
significant limitation for existing methods. This work proposes a generalizable
multi-view gaze estimation task and a cross-view feature fusion method to
address this issue. In addition to paired images, our method takes the relative
rotation matrix between two cameras as additional input. The proposed network
learns to extract rotatable feature representation by using relative rotation
as a constraint and adaptively fuses the rotatable features via stacked fusion
modules. This simple yet efficient approach significantly improves
generalization performance under unseen head poses without significantly
increasing computational cost. The model can be trained with random
combinations of cameras without fixing the positioning and can generalize to
unseen camera pairs during inference. Through experiments using multiple
datasets, we demonstrate the advantage of the proposed method over baseline
methods, including state-of-the-art domain generalization approaches. The code
will be available at https://github.com/ut-vision/Rot-MVGaze.
- Abstract(参考訳): 近年,外見に基づく視線推定が活発に研究されている。
しかし,未発見の頭部ポーズに対する一般化性能は,既存の手法では依然として大きな制限となっている。
本研究は、一般化可能な多視点視線推定タスクと、この問題に対処するためのクロスビュー特徴融合法を提案する。
ペア画像に加えて,2台のカメラ間の相対回転行列を付加入力として用いる。
提案するネットワークは,相対回転を制約として,回転可能な特徴表現を抽出し,重畳された融合モジュールを介して回転可能な特徴を適応的に融合する。
この単純かつ効率的なアプローチは、計算コストを大幅に増加させることなく、目立たない姿勢下での一般化性能を大幅に向上させる。
モデルは位置決めを固定することなくランダムにカメラの組み合わせで訓練することができ、推論中に見えないカメラペアに一般化することができる。
複数のデータセットを用いた実験により、最先端領域一般化手法を含むベースライン法よりも提案手法の利点を実証する。
コードはhttps://github.com/ut-vision/Rot-MVGaze.comから入手できる。
関連論文リスト
- UFORecon: Generalizable Sparse-View Surface Reconstruction from Arbitrary and UnFavOrable Sets [20.767590006724117]
入力ビューの組み合わせの有効性を示すために、ビュー合成スコアを導入し、検証する。
これを実現するために、ソース画像間の相互作用とビルド相関フラストラムのモデル化にクロスビューマッチングトランスフォーマを適用した。
提案手法は,ビュー・コンビネーション・ジェネリゼーション・ジェネリザビリティにおいて,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-08T06:27:13Z) - PoseDiffusion: Solving Pose Estimation via Diffusion-aided Bundle
Adjustment [21.98302129015761]
本稿では,確率的拡散フレームワーク内での運動構造(SfM)問題を定式化することを提案する。
本稿では,従来のSfMパイプラインよりもPoseDiffusionが大幅に改善されていることを示す。
本手法は,さらなるトレーニングを行なわずにデータセットをまたいで一般化できることが観察された。
論文 参考訳(メタデータ) (2023-06-27T17:59:07Z) - Adaptive Rotated Convolution for Rotated Object Detection [96.94590550217718]
本稿では、回転物体検出問題に対処するために、適応回転変換(ARC)モジュールを提案する。
ARCモジュールでは、コンボリューションカーネルが適応的に回転し、異なる画像に異なる向きのオブジェクト特徴を抽出する。
提案手法は,81.77%mAPのDOTAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T11:53:12Z) - RelPose: Predicting Probabilistic Relative Rotation for Single Objects
in the Wild [73.1276968007689]
本稿では、任意のオブジェクトの複数の画像からカメラ視点を推定するデータ駆動手法について述べる。
本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-11T17:59:59Z) - Unsupervised Image Fusion Method based on Feature Mutual Mapping [16.64607158983448]
上記の問題に対処するために,教師なし適応画像融合法を提案する。
入力元画像間の画素の接続を計測するグローバルマップを構築した。
本手法は視覚的知覚と客観的評価の両方において優れた性能を実現する。
論文 参考訳(メタデータ) (2022-01-25T07:50:14Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - AdaFuse: Adaptive Multiview Fusion for Accurate Human Pose Estimation in
the Wild [77.43884383743872]
本稿では,アダプティブなマルチビュー融合手法であるAdaFuseについて述べる。
我々は、Human3.6M、Total Capture、CMU Panopticの3つの公開データセットに対するアプローチを広く評価した。
また,大規模合成データセットOcclusion-Personを作成し,咬合関節の数値評価を行う。
論文 参考訳(メタデータ) (2020-10-26T03:19:46Z) - Deep Keypoint-Based Camera Pose Estimation with Geometric Constraints [80.60538408386016]
連続するフレームから相対的なカメラのポーズを推定することは、視覚計測の基本的な問題である。
本稿では,検出,特徴抽出,マッチング,外乱除去のための学習可能なモジュールで構成されるエンドツーエンドのトレーニング可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-29T21:41:31Z) - Object-Centric Multi-View Aggregation [86.94544275235454]
本稿では,オブジェクトのスパースなビュー集合を集約して,半単純3次元表現を容積特徴格子の形で計算する手法を提案する。
我々のアプローチの鍵となるのは、カメラのポーズを明示することなく、ビューを持ち上げることができるオブジェクト中心の標準3D座標システムである。
画素から標準座標系への対称対応マッピングの計算により、未知の領域への情報伝達がより良くなることを示す。
論文 参考訳(メタデータ) (2020-07-20T17:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。