論文の概要: End-to-end Video Gaze Estimation via Capturing Head-face-eye
Spatial-temporal Interaction Context
- arxiv url: http://arxiv.org/abs/2310.18131v3
- Date: Fri, 29 Dec 2023 09:08:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 01:10:15.047019
- Title: End-to-end Video Gaze Estimation via Capturing Head-face-eye
Spatial-temporal Interaction Context
- Title(参考訳): 頭部・視線空間・時間的相互作用コンテキストのキャプチャによるエンドツーエンド映像視線推定
- Authors: Yiran Guan, Zhuoguang Chen, Wenzheng Zeng, Zhiguo Cao, and Yang Xiao
- Abstract要約: 本稿では,空間的・時間的相互作用による映像視線推定を容易にするため,MCGaze (Multi-Clue Gaze) を提案する。
MCGazeの主な利点は、視線推定のために頭部、顔、目の手掛かりの定位化の課題を共同で解決できる点である。
- 参考スコア(独自算出の注目度): 13.388963845593263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this letter, we propose a new method, Multi-Clue Gaze (MCGaze), to
facilitate video gaze estimation via capturing spatial-temporal interaction
context among head, face, and eye in an end-to-end learning way, which has not
been well concerned yet. The main advantage of MCGaze is that the tasks of clue
localization of head, face, and eye can be solved jointly for gaze estimation
in a one-step way, with joint optimization to seek optimal performance. During
this, spatial-temporal context exchange happens among the clues on the head,
face, and eye. Accordingly, the final gazes obtained by fusing features from
various queries can be aware of global clues from heads and faces, and local
clues from eyes simultaneously, which essentially leverages performance.
Meanwhile, the one-step running way also ensures high running efficiency.
Experiments on the challenging Gaze360 dataset verify the superiority of our
proposition. The source code will be released at
https://github.com/zgchen33/MCGaze.
- Abstract(参考訳): 本稿では,頭部,顔,眼の空間的相互作用コンテキストを,まだ意識されていないエンドツーエンドの学習方法で把握し,映像の視線推定を容易にする新しい手法MCGaze(Multi-Clue Gaze)を提案する。
mcgazeの主な利点は、頭、顔、目の手がかりの局在化のタスクを、最適な性能を求めるための協調最適化とともに、一段階の視点推定のために共同で解決できることである。
この間、空間的-時間的文脈交換は頭、顔、目の手がかりの間で起こる。
したがって、様々なクエリから特徴を融合して得られる最終視線は、頭や顔からのグローバルな手がかりと、パフォーマンスを生かした目からのローカルな手がかりを同時に認識することができる。
一方、ワンステップ走行方式は高い走行効率を確保する。
gaze360データセットの挑戦的な実験は、提案の優越性を検証する。
ソースコードはhttps://github.com/zgchen33/MCGazeで公開される。
関連論文リスト
- Gaze-guided Hand-Object Interaction Synthesis: Dataset and Method [63.49140028965778]
本稿では,視線,手,物間相互作用の3次元モデリングを同時に行う最初のデータセットであるGazeHOIを紹介する。
これらの課題に対処するため,GHO-Diffusion という手動物体間相互作用拡散モデルを提案する。
また, GHO拡散のサンプリング段階におけるHOI-Manifold Guidanceを導入し, 生成した動きのきめ細かい制御を可能にする。
論文 参考訳(メタデータ) (2024-03-24T14:24:13Z) - GazeCLIP: Towards Enhancing Gaze Estimation via Text Guidance [9.639618473371083]
既存の視線推定手法は言語信号とCLIP特徴空間に埋め込まれた先行情報によって伝達されるリッチな意味的手がかりを見落としている。
具体的には、言語記述生成器を複雑に設計し、粗い方向の手がかりを持つテキスト信号を生成する。
これに続いて、不均一な入力間の画像推定のモデリングを目的とした、きめ細かいマルチモーダル融合モジュールを実装した。
論文 参考訳(メタデータ) (2023-12-30T15:24:50Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Centralized Feature Pyramid for Object Detection [53.501796194901964]
視覚的特徴ピラミッドは、広範囲のアプリケーションにおいて、有効性と効率の両方において、その優位性を示している。
本稿では,オブジェクト検出のためのOLO特徴ピラミッドを提案する。
論文 参考訳(メタデータ) (2022-10-05T08:32:54Z) - MGTR: End-to-End Mutual Gaze Detection with Transformer [1.0312968200748118]
本稿では,Mutual Gaze TRansformer あるいは MGTR と呼ばれる新しい1段階の相互視線検出フレームワークを提案する。
MGTRは、相互視線インスタンスのトリプルを設計することにより、人間の頭の境界ボックスを検知し、グローバル画像情報に基づいて相互視線関係を同時に推測することができる。
2つの相互視線データセットによる実験結果から,本手法は性能を損なうことなく,相互視線検出を高速化できることが示された。
論文 参考訳(メタデータ) (2022-09-22T11:26:22Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z) - Adaptive Feature Fusion Network for Gaze Tracking in Mobile Tablets [19.739595664816164]
本稿では,モバイルタブレットで視線追跡を行う適応型機能融合ネットワーク(aff-net)を提案する。
Squeeze-and-Excitation 層を用いて外観の類似性に応じて2眼特徴を適応的に融合する。
GazeCaptureとMPIIFaceGazeのデータセットによる実験により,提案手法の性能は一貫して向上した。
論文 参考訳(メタデータ) (2021-03-20T07:16:10Z) - LNSMM: Eye Gaze Estimation With Local Network Share Multiview Multitask [7.065909514483728]
本稿では,視線点と視線方向を同時に推定する新しい手法を提案する。
本手法は,視線点と視線方向の2つの指標について,現在主流の手法であることを示す。
論文 参考訳(メタデータ) (2021-01-18T15:14:24Z) - Towards End-to-end Video-based Eye-Tracking [50.0630362419371]
画像のみから視線を推定することは、観察不可能な人固有の要因のために難しい課題である。
本稿では,これらの意味的関係と時間的関係を明確に学習することを目的とした,新しいデータセットとアタッチメント手法を提案する。
視覚刺激からの情報と視線画像の融合が,文献に記録された人物と同じような性能を達成することにつながることを実証した。
論文 参考訳(メタデータ) (2020-07-26T12:39:15Z) - It's Written All Over Your Face: Full-Face Appearance-Based Gaze
Estimation [82.16380486281108]
顔の全体像のみを入力とする外観に基づく手法を提案する。
本手法は,特徴写像に空間重みを印加した畳み込みニューラルネットワークを用いて顔画像の符号化を行う。
本手法は2次元視線と3次元視線の両方で技量を有意に上回ることを示す。
論文 参考訳(メタデータ) (2016-11-27T15:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。