論文の概要: PAL: Intelligence Augmentation using Egocentric Visual Context Detection
- arxiv url: http://arxiv.org/abs/2105.10735v1
- Date: Sat, 22 May 2021 14:01:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 08:33:02.987987
- Title: PAL: Intelligence Augmentation using Egocentric Visual Context Detection
- Title(参考訳): PAL:Egocentric Visual Context Detection を用いたインテリジェンス強化
- Authors: Mina Khan and Pattie Maes
- Abstract要約: エゴセントリックな視覚コンテキスト検出は、インテリジェンス強化アプリケーションをサポートすることができる。
我々は、ウェアラブル、パーソナライズ、プライバシー保護のエゴセントリックな視覚的コンテキスト検出のための、PALと呼ばれるウェアラブルシステムを開発した。
- 参考スコア(独自算出の注目度): 38.16513215696043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Egocentric visual context detection can support intelligence augmentation
applications. We created a wearable system, called PAL, for wearable,
personalized, and privacy-preserving egocentric visual context detection. PAL
has a wearable device with a camera, heart-rate sensor, on-device deep
learning, and audio input/output. PAL also has a mobile/web application for
personalized context labeling. We used on-device deep learning models for
generic object and face detection, low-shot custom face and context recognition
(e.g., activities like brushing teeth), and custom context clustering (e.g.,
indoor locations). The models had over 80\% accuracy in in-the-wild contexts
(~1000 images) and we tested PAL for intelligence augmentation applications
like behavior change. We have made PAL is open-source to further support
intelligence augmentation using personalized and privacy-preserving egocentric
visual contexts.
- Abstract(参考訳): エゴセントリックな視覚コンテキスト検出はインテリジェンス強化アプリケーションをサポートする。
我々は、ウェアラブル、パーソナライズ、プライバシー保護のエゴセントリックな視覚的コンテキスト検出のための、PALと呼ばれるウェアラブルシステムを開発した。
palには、カメラ、心拍センサー、オンデバイスディープラーニング、オーディオ入出力を備えたウェアラブルデバイスがある。
PALには、パーソナライズされたコンテキストラベリングのためのモバイル/ウェブアプリケーションもある。
汎用オブジェクトと顔検出,低ショットカスタム顔とコンテキスト認識(歯磨きなど),カスタムコンテキストクラスタリング(屋内ロケーションなど)に,デバイス上でのディープラーニングモデルを用いた。
モデルの精度は80\%以上(約1000画像)で,行動変化などの知性強化アプリケーション用にpalをテストした。
我々はPALをオープンソースにして、パーソナライズされたプライバシー保護エゴセントリックなビジュアルコンテキストを使用して、インテリジェンス強化をさらにサポートした。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Multimodal Group Emotion Recognition In-the-wild Using Privacy-Compliant
Features [0.0]
グループレベルの感情認識は、社会ロボティクス、会話エージェント、e-coaching、学習分析など、多くの分野で有用である。
本稿では,EmotiW Challenge 2023の中で,プライバシに適合したグループレベルの感情認識について検討する。
論文 参考訳(メタデータ) (2023-12-06T08:58:11Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Deep Learning-based Spatio Temporal Facial Feature Visual Speech
Recognition [0.0]
パスワードをしゃべりながら、顔認識と個人特有の時間的顔の特徴的動作を併用する代替認証方式を提案する。
提案されたモデルは、業界標準のMIRACL-VC1データセットでテストしたときに96.1%の精度を達成した。
論文 参考訳(メタデータ) (2023-04-30T18:52:29Z) - Emergence of Shared Sensory-motor Graphical Language from Visual Input [22.23299485364174]
本稿では、話者が視覚的参照オブジェクトを名付けるために、グラフィカルな発話を生成しなければならないグラフィカル・リファレンシャル・ゲーム(GREG)を紹介した。
発声は、ダイナミックモータプリミティブとスケッチライブラリを組み合わせた描画画像である。
提案手法は,構成特性を持つ共有グラフィカル言語の出現を可能にする。
論文 参考訳(メタデータ) (2022-10-03T17:11:18Z) - ZoDIAC: Zoneout Dropout Injection Attention Calculation [2.792030485253753]
入力シーケンスの要素の注意値の強度を入力シーケンスの要素のコンテキストに応じて算出するゾーンアウトドロップアウト注入注意計算(ZoDIAC)を提案する。
実験の結果,ZoDIACはトランスフォーマーモデルにおける自己保持モジュールと比較して性能が向上することがわかった。
最終的なゴールは、トランスフォーマーモデルにおける自己アテンションモジュールを、コアで自己アテンションを利用する他のモデルに潜在的なメソッドで変更できるかどうかを見つけることです。
論文 参考訳(メタデータ) (2022-06-28T19:36:11Z) - data2vec: A General Framework for Self-supervised Learning in Speech,
Vision and Language [85.9019051663368]
data2vecは、音声、NLP、コンピュータビジョンのいずれかに同じ学習方法を使用するフレームワークである。
中心となる考え方は、自己蒸留装置における入力のマスキングビューに基づいて、完全な入力データの潜在表現を予測することである。
音声認識、画像分類、自然言語理解に関する主要なベンチマークの実験は、新しい技術や競争性能の状態を実証している。
論文 参考訳(メタデータ) (2022-02-07T22:52:11Z) - Multi-Modal Subjective Context Modelling and Recognition [19.80579219657159]
我々は,時間,場所,活動,社会的関係,対象の5次元を捉える新しい存在論的文脈モデルを提案する。
実世界のデータに対する最初の文脈認識実験は、我々のモデルの約束を示唆している。
論文 参考訳(メタデータ) (2020-11-19T05:42:03Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege's
Principle [71.47160118286226]
EmotiConは、ビデオや画像から知覚された人間の感情認識をコンテキスト認識する学習アルゴリズムである。
心理学からフレーゲの文脈原理に動機づけられた我々のアプローチは、感情認識のための文脈の3つの解釈を組み合わせたものである。
平均精度 (AP) スコアは26クラスで35.48であり, 従来の手法よりも7-8の改善が見られた。
論文 参考訳(メタデータ) (2020-03-14T19:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。