論文の概要: AL-GTD: Deep Active Learning for Gaze Target Detection
- arxiv url: http://arxiv.org/abs/2409.18561v1
- Date: Fri, 27 Sep 2024 09:01:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-01 21:55:30.176181
- Title: AL-GTD: Deep Active Learning for Gaze Target Detection
- Title(参考訳): AL-GTD:ゲズターゲット検出のための深層能動学習
- Authors: Francesco Tonini, Nicola Dall'Asen, Lorenzo Vaquero, Cigdem Beyan, Elisa Ricci,
- Abstract要約: AL-GTDは,新規なサンプル取得機能に教師付き及び自己監督型損失を統合する革新的な手法である。
AL-GTDは、トレーニングデータの40-50%しか利用せず、全てのAUCの最良の結果が得られる。
タスクにいくつかのALメソッドを適用することで、総合的な実験分析を行う。
- 参考スコア(独自算出の注目度): 12.44667794753699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gaze target detection aims at determining the image location where a person is looking. While existing studies have made significant progress in this area by regressing accurate gaze heatmaps, these achievements have largely relied on access to extensive labeled datasets, which demands substantial human labor. In this paper, our goal is to reduce the reliance on the size of labeled training data for gaze target detection. To achieve this, we propose AL-GTD, an innovative approach that integrates supervised and self-supervised losses within a novel sample acquisition function to perform active learning (AL). Additionally, it utilizes pseudo-labeling to mitigate distribution shifts during the training phase. AL-GTD achieves the best of all AUC results by utilizing only 40-50% of the training data, in contrast to state-of-the-art (SOTA) gaze target detectors requiring the entire training dataset to achieve the same performance. Importantly, AL-GTD quickly reaches satisfactory performance with 10-20% of the training data, showing the effectiveness of our acquisition function, which is able to acquire the most informative samples. We provide a comprehensive experimental analysis by adapting several AL methods for the task. AL-GTD outperforms AL competitors, simultaneously exhibiting superior performance compared to SOTA gaze target detectors when all are trained within a low-data regime. Code is available at https://github.com/francescotonini/al-gtd.
- Abstract(参考訳): 視線目標検出は、人が見ている画像の位置を決定することを目的としている。
既存の研究は正確な視線熱マップを後退させることでこの分野に大きな進歩を遂げてきたが、これらの成果は大規模なラベル付きデータセットへのアクセスに大きく依存しており、かなりの人的労働力を必要としている。
本稿では,視線目標検出のためのラベル付きトレーニングデータのサイズに依存しないようにすることを目的とする。
そこで本研究では,AL-GTDを提案する。AL-GTDは,教師付きと自己監督型の損失を,新たなサンプル取得機能に統合し,アクティブラーニング(AL)を実現する革新的な手法である。
さらに、擬似ラベルを使用して、トレーニングフェーズ中の分散シフトを緩和する。
AL-GTDはトレーニングデータの40-50%しか利用していないため、トレーニングデータセット全体を必要とするSOTA(State-of-the-art)目標検出器とは対照的である。
重要なことに、AL-GTDはトレーニングデータの10~20%を迅速に達成し、最も情報に富んだサンプルを取得できる買収機能の有効性を示した。
タスクにいくつかのALメソッドを適用することで、総合的な実験分析を行う。
AL-GTDはALのライバルより優れており、低データ体制で訓練された場合のSOTA目標検出器よりも優れた性能を示す。
コードはhttps://github.com/francescotonini/al-gtd.comで入手できる。
関連論文リスト
- Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - GOODAT: Towards Test-time Graph Out-of-Distribution Detection [103.40396427724667]
グラフニューラルネットワーク(GNN)は、さまざまな領域にわたるグラフデータのモデリングに広く応用されている。
近年の研究では、特定のモデルのトレーニングや、よく訓練されたGNN上でのデータ修正に重点を置いて、OOD検出のグラフを調査している。
本稿では、GNNアーキテクチャのトレーニングデータと修正から独立して動作する、データ中心、教師なし、プラグアンドプレイのソリューションを提案する。
論文 参考訳(メタデータ) (2024-01-10T08:37:39Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Composite Learning for Robust and Effective Dense Predictions [81.2055761433725]
マルチタスク学習は、目標タスクを補助タスクと協調的に最適化することで、より優れたモデル一般化を約束する。
自己監督型(補助的)タスクと密接な予測(目標)タスクを共同でトレーニングすることで、目標タスクの性能を継続的に向上し、補助タスクのラベル付けの必要性を排除できることが判明した。
論文 参考訳(メタデータ) (2022-10-13T17:59:16Z) - Explored An Effective Methodology for Fine-Grained Snake Recognition [8.908667065576632]
我々は,様々なメタ情報を活用し,きめ細かい識別を支援するために,強力なマルチモーダルバックボーンを設計する。
ラベルのないデータセットを最大限に活用するために,自己教師付き学習と教師付き学習共同学習を用いる。
本手法は,個人用および公開用データセットにおいて,それぞれ92.7%,89.4%のマクロf1スコアを達成できる。
論文 参考訳(メタデータ) (2022-07-24T02:19:15Z) - To be Critical: Self-Calibrated Weakly Supervised Learning for Salient
Object Detection [95.21700830273221]
弱教師付き有色物体検出(WSOD)は,画像レベルのアノテーションを用いた有色度モデルの開発を目的としている。
擬似ラベルとネットワーク予測の相互校正ループを明確に設定し,自己校正学習戦略を提案する。
十分に整合したアノテーションを持つはるかに小さなデータセットであっても、モデルがより優れたパフォーマンスと一般化性を達成するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-04T02:45:22Z) - SelfHAR: Improving Human Activity Recognition through Self-training with
Unlabeled Data [9.270269467155547]
SelfHARは、ラベルなしデータセットを利用して小さなラベル付きデータセットを補完する半教師付きモデルである。
提案手法は教師による自己学習と,ラベル付きデータセットとラベル付きデータセットの知識を融合する。
SelfHARはデータ効率が高く、教師付きアプローチの10倍のラベル付きデータを使用して、同様のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-02-11T15:40:35Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。