論文の概要: Multimodal Across Domains Gaze Target Detection
- arxiv url: http://arxiv.org/abs/2208.10822v1
- Date: Tue, 23 Aug 2022 09:09:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-24 12:41:53.829515
- Title: Multimodal Across Domains Gaze Target Detection
- Title(参考訳): マルチモーダル・アクロス・ドメインの目標検出
- Authors: Francesco Tonini and Cigdem Beyan and Elisa Ricci
- Abstract要約: 本稿では,3人称視点から捉えた単一画像における視線目標検出問題に対処する。
シーン内の人物が見ている場所を推測するために,マルチモーダルなディープアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 18.41238482101682
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper addresses the gaze target detection problem in single images
captured from the third-person perspective. We present a multimodal deep
architecture to infer where a person in a scene is looking. This spatial model
is trained on the head images of the person-of- interest, scene and depth maps
representing rich context information. Our model, unlike several prior art, do
not require supervision of the gaze angles, do not rely on head orientation
information and/or location of the eyes of person-of-interest. Extensive
experiments demonstrate the stronger performance of our method on multiple
benchmark datasets. We also investigated several variations of our method by
altering joint-learning of multimodal data. Some variations outperform a few
prior art as well. First time in this paper, we inspect domain adaption for
gaze target detection, and we empower our multimodal network to effectively
handle the domain gap across datasets. The code of the proposed method is
available at
https://github.com/francescotonini/multimodal-across-domains-gaze-target-detection.
- Abstract(参考訳): 本稿では,3人称視点から捉えた単一画像における視線目標検出問題に対処する。
シーン内の人物が見ている場所を推測するために,マルチモーダルなディープアーキテクチャを提案する。
この空間モデルは、豊かな文脈情報を表す人物、風景、深度マップの頭部画像に基づいて訓練される。
我々のモデルは、いくつかの先行技術とは異なり、視線角度の監督を必要とせず、方向情報や興味ある人の目の位置に依存しない。
複数のベンチマークデータセット上で,本手法のより強力な性能を示す実験を行った。
また,マルチモーダルデータの共同学習を変更することで,提案手法の様々なバリエーションを検討した。
いくつかのバリエーションは、いくつかの先行技術よりも優れている。
本稿では、まず、視線目標検出のためのドメイン適応を検査し、データセット間のドメインギャップを効果的に処理するためのマルチモーダルネットワークを強化する。
提案手法のコードはhttps://github.com/francescotonini/multimodal-across-domains-gaze-target-detectionで利用可能である。
関連論文リスト
- Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Can Deep Network Balance Copy-Move Forgery Detection and
Distinguishment? [3.7311680121118345]
コピーモーブ偽造検出は、デジタル画像鑑定において重要な研究領域である。
近年では、コピー・ムーブの偽造品で原本と複製物とを区別することへの関心が高まっている。
本稿では,エンド・ツー・エンドのディープ・ニューラル・ネットワークにおけるトランスフォーマー・アーキテクチャを用いた革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T14:35:56Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - Diverse Instance Discovery: Vision-Transformer for Instance-Aware
Multi-Label Image Recognition [24.406654146411682]
視覚変換器 (ViT) が研究基盤である。
私たちの目標は、ViTのパッチトークンとセルフアテンションメカニズムを活用して、リッチなインスタンスをマルチラベルイメージでマイニングすることにあります。
マルチスケールな局所的特徴を抽出するために、弱教師付きオブジェクトローカライゼーションに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-22T14:38:40Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Translate to Adapt: RGB-D Scene Recognition across Domains [18.40373730109694]
本研究では,マルチモーダルシーン認識データセット内に,潜在的に深刻なドメインシフト問題が存在することを注目する。
本稿では,異なるカメラ領域にまたがって適応可能な自己教師付きモダリティ間翻訳法を提案する。
論文 参考訳(メタデータ) (2021-03-26T18:20:29Z) - Six-channel Image Representation for Cross-domain Object Detection [17.854940064699985]
ディープラーニングモデルはデータ駆動であり、優れたパフォーマンスは豊富で多様なデータセットに依存する。
いくつかの画像から画像への翻訳技術は、モデルを訓練するために特定のシーンの偽データを生成するために用いられる。
3チャンネル画像とそのgan生成した偽画像に刺激を与え,データセットの6チャンネル表現を作成することを提案する。
論文 参考訳(メタデータ) (2021-01-03T04:50:03Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - A Review of Single-Source Deep Unsupervised Visual Domain Adaptation [81.07994783143533]
大規模ラベル付きトレーニングデータセットにより、ディープニューラルネットワークは、幅広いベンチマークビジョンタスクを拡張できるようになった。
多くのアプリケーションにおいて、大量のラベル付きデータを取得するのは非常に高価で時間を要する。
限られたラベル付きトレーニングデータに対処するため、大規模ラベル付きソースドメインでトレーニングされたモデルを、疎ラベルまたは未ラベルのターゲットドメインに直接適用しようと試みている人も多い。
論文 参考訳(メタデータ) (2020-09-01T00:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。