論文の概要: A Modular Multimodal Architecture for Gaze Target Prediction:
Application to Privacy-Sensitive Settings
- arxiv url: http://arxiv.org/abs/2307.05158v1
- Date: Tue, 11 Jul 2023 10:30:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 15:23:28.948375
- Title: A Modular Multimodal Architecture for Gaze Target Prediction:
Application to Privacy-Sensitive Settings
- Title(参考訳): ゲズターゲット予測のためのモジュール型マルチモーダルアーキテクチャ:プライバシー感性設定への応用
- Authors: Anshul Gupta, Samy Tafasca, Jean-Marc Odobez
- Abstract要約: 本稿では,アテンション機構を用いてマルチモーダルキューを組み合わせるモジュール型マルチモーダルアーキテクチャを提案する。
アーキテクチャは、個人が特定可能な情報を公開できない監視や健康といったプライバシーに敏感な状況において、自然に活用することができる。
- 参考スコア(独自算出の注目度): 18.885623017619988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting where a person is looking is a complex task, requiring to
understand not only the person's gaze and scene content, but also the 3D scene
structure and the person's situation (are they manipulating? interacting or
observing others? attentive?) to detect obstructions in the line of sight or
apply attention priors that humans typically have when observing others. In
this paper, we hypothesize that identifying and leveraging such priors can be
better achieved through the exploitation of explicitly derived multimodal cues
such as depth and pose. We thus propose a modular multimodal architecture
allowing to combine these cues using an attention mechanism. The architecture
can naturally be exploited in privacy-sensitive situations such as surveillance
and health, where personally identifiable information cannot be released. We
perform extensive experiments on the GazeFollow and VideoAttentionTarget public
datasets, obtaining state-of-the-art performance and demonstrating very
competitive results in the privacy setting case.
- Abstract(参考訳): 人の視線やシーンの内容だけでなく、3Dシーンの構造や状況(操作されているか、他人を観察しているか?
本稿では, 深さやポーズなどのマルチモーダルな手がかりを明示的に導出することにより, 事前の同定と活用がより良く達成できると仮定する。
そこで我々は,これらのキューをアテンション機構を用いて組み合わせるモジュール型マルチモーダルアーキテクチャを提案する。
アーキテクチャは、個人が特定可能な情報を公開できない監視や健康といったプライバシーに敏感な状況において、自然に活用することができる。
GazeFollowとVideoAttentionTargetの公開データセットについて広範な実験を行い、最先端のパフォーマンスを取得し、プライバシー設定ケースで非常に競争力のある結果を示す。
関連論文リスト
- Upper-Body Pose-based Gaze Estimation for Privacy-Preserving 3D Gaze Target Detection [19.478147736434394]
既存のアプローチは、人の外見を分析することに大きく依存しており、主に視線目標を予測するために顔に焦点を当てている。
本稿では,人の上半身ポーズと利用可能な深度マップを利用して3次元視線方向を抽出する手法を提案する。
我々は、最も包括的にアクセス可能な3D視線目標検出データセット上で、最先端の成果を示す。
論文 参考訳(メタデータ) (2024-09-26T14:35:06Z) - Modeling User Preferences via Brain-Computer Interfacing [54.3727087164445]
我々はBrain-Computer Interface技術を用いてユーザの好みを推測し、その注意力は視覚的コンテンツと感情的体験との関連性に相関する。
我々はこれらを,情報検索,生成モデルのパーソナライズされたステアリング,感情経験のクラウドソーシング人口推定など,関連するアプリケーションにリンクする。
論文 参考訳(メタデータ) (2024-05-15T20:41:46Z) - Generalizable Person Search on Open-world User-Generated Video Content [93.72028298712118]
人物の検索は、大量の露骨なシーン画像から個人を検索する、困難な作業である。
既存の人検索アプリケーションは、ほとんどトレーニングされ、同じシナリオにデプロイされます。
本稿では,任意のシナリオにおける下流タスクを容易にするために,特徴レベルとデータレベルの両方の一般化可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-16T04:59:50Z) - Human-centric Behavior Description in Videos: New Benchmark and Model [37.96539992056626]
我々は,7,820人の動特性を詳細に記述した人間中心のビデオ監視キャプションデータセットを構築した。
このデータセットに基づいて、個人をそれぞれの行動に結びつけることができ、監視ビデオで各人の行動をさらに分析することができる。
論文 参考訳(メタデータ) (2023-10-04T15:31:02Z) - MECCANO: A Multimodal Egocentric Dataset for Humans Behavior
Understanding in the Industrial-like Domain [23.598727613908853]
本稿では,産業的な環境下での人間の行動理解を目的とした,エゴセントリックなビデオのデータセットMECCANOを提案する。
マルチモダリティの特徴は、視線信号、深度マップ、RGBビデオとカスタムヘッドセットが同時に取得される点である。
データセットは、人間の行動理解の文脈における基本的なタスクに対して、一人称視点から明示的にラベル付けされている。
論文 参考訳(メタデータ) (2022-09-19T00:52:42Z) - OPOM: Customized Invisible Cloak towards Face Privacy Protection [58.07786010689529]
我々は、新しいタイプのカスタマイズクロークに基づく技術の観点から、顔のプライバシ保護について検討する。
本研究では,個人固有の(クラスワイドな)ユニバーサルマスクを生成するために,1人1マスク(OPOM)という新しい手法を提案する。
提案手法の有効性を,共通データセットと有名データセットの両方で評価した。
論文 参考訳(メタデータ) (2022-05-24T11:29:37Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - SPAct: Self-supervised Privacy Preservation for Action Recognition [73.79886509500409]
アクション認識におけるプライバシー漏洩を緩和するための既存のアプローチは、ビデオデータセットのアクションラベルとともに、プライバシラベルを必要とする。
自己教師付き学習(SSL)の最近の進歩は、未ラベルデータの未発見の可能性を解き放ちつつある。
本稿では、プライバシーラベルを必要とせず、自己管理的な方法で、入力ビデオからプライバシー情報を除去する新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T02:56:40Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - Detecting Attended Visual Targets in Video [25.64146711657225]
実世界の視線行動の複雑な動的パターンを含む新しいアノテーション付きデータセットVideoAttentionTargetを導入する。
実験の結果,ビデオの動的注意を効果的に推測できることがわかった。
ウェアラブルカメラやアイトラッカーを使わずに臨床関連視線行動を自動的に分類する最初の結果を得た。
論文 参考訳(メタデータ) (2020-03-05T09:29:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。