論文の概要: Learning Video-independent Eye Contact Segmentation from In-the-Wild
Videos
- arxiv url: http://arxiv.org/abs/2210.02033v1
- Date: Wed, 5 Oct 2022 05:46:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 13:59:37.092956
- Title: Learning Video-independent Eye Contact Segmentation from In-the-Wild
Videos
- Title(参考訳): in-the-wildビデオからの眼球接触セグメンテーションの学習
- Authors: Tianyi Wu and Yusuke Sugano
- Abstract要約: 本研究では,野生の映像における片方向眼球接触検出の課題に対処する。
私たちのゴールは、任意の入力ビデオの中で、人が視線ターゲットを見ていることを識別できる統一モデルを構築することです。
ラベル付きトレーニングデータの不足により、ラベルなしビデオの擬似ラベルを生成するための視線目標探索法を提案する。
- 参考スコア(独自算出の注目度): 18.373736201140026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human eye contact is a form of non-verbal communication and can have a great
influence on social behavior. Since the location and size of the eye contact
targets vary across different videos, learning a generic video-independent eye
contact detector is still a challenging task. In this work, we address the task
of one-way eye contact detection for videos in the wild. Our goal is to build a
unified model that can identify when a person is looking at his gaze targets in
an arbitrary input video. Considering that this requires time-series relative
eye movement information, we propose to formulate the task as a temporal
segmentation. Due to the scarcity of labeled training data, we further propose
a gaze target discovery method to generate pseudo-labels for unlabeled videos,
which allows us to train a generic eye contact segmentation model in an
unsupervised way using in-the-wild videos. To evaluate our proposed approach,
we manually annotated a test dataset consisting of 52 videos of human
conversations. Experimental results show that our eye contact segmentation
model outperforms the previous video-dependent eye contact detector and can
achieve 71.88% framewise accuracy on our annotated test set. Our code and
evaluation dataset are available at
https://github.com/ut-vision/Video-Independent-ECS.
- Abstract(参考訳): 人間の目の接触は非言語コミュニケーションの一形態であり、社会的行動に大きな影響を与えうる。
眼接触目標の位置や大きさはビデオによって異なるため、汎用的な眼接触検出器の学習は依然として難しい課題である。
本研究では,野生の映像における片方向眼球接触検出の課題に対処する。
私たちの目標は、任意の入力ビデオで自分の視線目標を見ているときに識別できる統一モデルを作ることです。
時系列の相対眼球運動情報を必要とすることを考慮し,タスクを時間分割として定式化することを提案する。
ラベル付きトレーニングデータの不足により,ラベル付きビデオの擬似ラベル生成のための視線目標探索法も提案している。
提案手法を評価するために,人間の会話の52ビデオからなるテストデータセットを手作業でアノテートした。
実験結果から,眼球接触セグメンテーションモデルは従来の映像依存型眼球接触検出装置よりも優れており,アノテートテストセットでは71.88%の精度が達成できることがわかった。
コードと評価データセットはhttps://github.com/ut-vision/Video-Independent-ECSで公開されています。
関連論文リスト
- Real-time estimation of overt attention from dynamic features of the face using deep-learning [0.0]
我々は,眼球運動に基づく注意度を推定するために,深層学習モデルを訓練する。
学生が同じ教育ビデオを見ている間、10秒間隔で眼球運動の物体間相関を測定した。
ソリューションは軽量で、クライアント側で操作できるため、オンラインの注意監視に関連するプライバシー上の懸念が軽減される。
論文 参考訳(メタデータ) (2024-09-19T20:49:39Z) - Human-Object Interaction Prediction in Videos through Gaze Following [9.61701724661823]
我々は、現在のHOIを検出し、将来のHOIをビデオで予測するためのフレームワークを設計する。
我々は、人間がオブジェクトと対話する前にしばしば固定するので、人間の情報を活用することを提案する。
我々のモデルは、日々の生活を捉えたビデオを含むVidHOIデータセットで訓練され、検証されている。
論文 参考訳(メタデータ) (2023-06-06T11:36:14Z) - Do Pedestrians Pay Attention? Eye Contact Detection in the Wild [75.54077277681353]
都市環境では、人間は近くの人々との迅速かつ効率的なコミュニケーションのためにアイコンタクトに依存している。
本稿では,環境や歩行者距離を制御できない自動運転車の眼球接触検出,すなわち実世界のシナリオに着目した。
本稿では, セマンティックキーポイントを利用したアイコンタクト検出モデルを導入し, このハイレベルな表現が, 一般公開データセットJAADの最先端結果を実現することを示す。
ドメイン適応を研究するために、私たちは、野生のアイコンタクト検出のための大規模データセット、LOOKを作成しました。
論文 参考訳(メタデータ) (2021-12-08T10:21:28Z) - Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。
文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文 参考訳(メタデータ) (2021-10-07T15:30:18Z) - MutualEyeContact: A conversation analysis tool with focus on eye contact [69.17395873398196]
MutualEyeContactは、社会的相互作用における(相互)アイコンタクトの重要性を理解するのに役立つ。
我々は、最先端の視線追跡と機械学習に基づく顔認識を組み合わせるとともに、ソーシャルインタラクションセッションの分析と可視化のためのツールを提供する。
論文 参考訳(メタデータ) (2021-07-09T15:05:53Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Towards End-to-end Video-based Eye-Tracking [50.0630362419371]
画像のみから視線を推定することは、観察不可能な人固有の要因のために難しい課題である。
本稿では,これらの意味的関係と時間的関係を明確に学習することを目的とした,新しいデータセットとアタッチメント手法を提案する。
視覚刺激からの情報と視線画像の融合が,文献に記録された人物と同じような性能を達成することにつながることを実証した。
論文 参考訳(メタデータ) (2020-07-26T12:39:15Z) - Learning Person Re-identification Models from Videos with Weak
Supervision [53.53606308822736]
本稿では、監督の弱いビデオから人物再識別モデルを学ぶ問題について紹介する。
このようなビデオレベルラベルを用いた人物再識別のための多段階注意学習フレームワークを提案する。
注意重みは、ビデオ中の人物追跡レットではなく、すべての人物画像に基づいて得られるため、学習したモデルはノイズの多いアノテーションの影響を受けにくくなる。
論文 参考訳(メタデータ) (2020-07-21T07:23:32Z) - Detecting Attended Visual Targets in Video [25.64146711657225]
実世界の視線行動の複雑な動的パターンを含む新しいアノテーション付きデータセットVideoAttentionTargetを導入する。
実験の結果,ビデオの動的注意を効果的に推測できることがわかった。
ウェアラブルカメラやアイトラッカーを使わずに臨床関連視線行動を自動的に分類する最初の結果を得た。
論文 参考訳(メタデータ) (2020-03-05T09:29:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。