論文の概要: AI-Assisted Verification of Biometric Data Collection
- arxiv url: http://arxiv.org/abs/2112.09660v1
- Date: Fri, 17 Dec 2021 18:06:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-20 16:35:21.916286
- Title: AI-Assisted Verification of Biometric Data Collection
- Title(参考訳): AIによるバイオメトリックデータ収集の検証
- Authors: Ryan Lindsey
- Abstract要約: 本稿では,デバイス間でのYOLOアーキテクチャの性能を,専用GPUを用いて比較する。
また、限られたハードウェア上でビデオから顔や行動を認識する際の制限についても論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognizing actions from a video feed is a challenging task to automate,
especially so on older hardware. There are two aims for this project: one is to
recognize an action from the front-facing camera on an Android phone, the other
is to support as many phones and Android versions as possible. This limits us
to using models that are small enough to run on mobile phones with and without
GPUs, and only using the camera feed to recognize the action. In this paper we
compare performance of the YOLO architecture across devices (with and without
dedicated GPUs) using models trained on a custom dataset. We also discuss
limitations in recognizing faces and actions from video on limited hardware.
- Abstract(参考訳): ビデオフィードからアクションを認識することは、特に古いハードウェアで自動化するのが難しい作業だ。
このプロジェクトには2つの目標がある。ひとつは、Androidスマートフォンの前面カメラからのアクションを認識すること、もうひとつは、できるだけ多くの携帯電話とAndroidバージョンをサポートすることだ。
これにより、gpuの有無に関わらず携帯電話で動作し、アクションを認識するためにカメラフィードのみを使用するようなモデルの使用が制限されます。
本稿では、カスタムデータセットでトレーニングされたモデルを用いて、デバイス間で(専用GPUなしで)YOLOアーキテクチャの性能を比較する。
また、限られたハードウェア上でビデオから顔や行動を認識する際の制限についても論じる。
関連論文リスト
- Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。
その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:58:31Z) - Training a Vision Language Model as Smartphone Assistant [1.3654846342364308]
モバイルデバイス上で多様なタスクをこなせる視覚言語モデル(VLM)を提案する。
私たちのモデルはユーザインターフェース(UI)のみと対話することで機能します。
従来の手法とは異なり、我々のモデルは単一の画面画像だけでなく、過去のスクリーンショットのシーケンスから生成された視覚言語文でも動作する。
論文 参考訳(メタデータ) (2024-04-12T18:28:44Z) - ATTACH Dataset: Annotated Two-Handed Assembly Actions for Human Action
Understanding [8.923830513183882]
ATTACHデータセットは、95.2kの注釈付き微粒なアクションを3台のカメラで監視する51.6時間のアセンブリを含む。
ATTACHデータセットでは、アノテーションの68%以上が他のアノテーションと重複している。
ビデオおよび骨格配列入力における動作検出だけでなく,動作認識のための最先端手法の性能について報告する。
論文 参考訳(メタデータ) (2023-04-17T12:31:24Z) - TarViS: A Unified Approach for Target-based Video Segmentation [115.5770357189209]
TarViSは、ビデオで任意に定義された「ターゲット」の集合をセグメント化する必要があるあらゆるタスクに適用できる、新しく統合されたネットワークアーキテクチャである。
我々のアプローチは、タスクがこれらのターゲットをどのように定義するかに関して柔軟であり、後者を抽象的な「クエリ」としてモデル化し、ピクセル精度の高いターゲットマスクを予測するのに使用される。
その有効性を示すために、TarViSをビデオインスタンス(VIS)、ビデオパノプティクス(VPS)、ビデオオブジェクト(VOS)、ポイントインテンプラ誘導トラッキング(PET)の4つのタスクに適用する。
論文 参考訳(メタデータ) (2023-01-06T18:59:52Z) - Realistic Bokeh Effect Rendering on Mobile GPUs, Mobile AI & AIM 2022
challenge: Report [75.79829464552311]
この課題は、最新のスマートフォンモデルで実行できる効率的なエンドツーエンドのAIベースのレンダリングアプローチを開発することだった。
得られたモデルはKirin 9000のMali GPUで評価され、多くのディープラーニングオプティマスに対して優れた加速結果が得られた。
論文 参考訳(メタデータ) (2022-11-07T22:42:02Z) - Efficient Single-Image Depth Estimation on Mobile Devices, Mobile AI &
AIM 2022 Challenge: Report [108.88637766066759]
ディープラーニングベースの単一画像深度推定ソリューションは、IoTプラットフォームとスマートフォン上でリアルタイムのパフォーマンスを示すことができる。
このチャレンジで開発されたモデルは、AndroidやLinuxベースのモバイルデバイスとも互換性がある。
論文 参考訳(メタデータ) (2022-11-07T22:20:07Z) - Learned Smartphone ISP on Mobile GPUs with Deep Learning, Mobile AI &
AIM 2022 Challenge: Report [59.831324427712815]
この課題は、効率的なエンドツーエンドのAIベースの画像処理パイプラインを開発することを目的としている。
モデルはSnapdragonの8 Gen 1 GPUで評価され、一般的なディープラーニング運用の大部分で優れた加速結果が得られた。
提案されたソリューションは、最近のすべてのモバイルGPUと互換性があり、フルHD写真を20-50ミリ秒未満で処理でき、高い忠実度を達成できる。
論文 参考訳(メタデータ) (2022-11-07T22:13:10Z) - A Framework for Event-based Computer Vision on a Mobile Device [3.912482311158817]
イベントカメラから直接携帯電話にデータをストリームする,初めて公開されたAndroidフレームワークを提示する。
私たちのプロトタイプデバイスは、そのようなイベントカメラをバッテリー駆動のハンドヘルドデバイスに組み込むための第一歩です。
論文 参考訳(メタデータ) (2022-05-13T18:06:20Z) - MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient
Long-Term Video Recognition [74.35009770905968]
既存のモデルに比べて30倍の時間的サポートを持つメモリ拡張型視覚変換器を構築した。
MeMViTは、AVA、EPIC-Kitchens-100アクション分類、アクション予測データセットの最先端結果を取得する。
論文 参考訳(メタデータ) (2022-01-20T18:59:54Z) - SVDistNet: Self-Supervised Near-Field Distance Estimation on Surround
View Fisheye Cameras [30.480562747903186]
シーンジオメトリの360deg認識は、特に駐車場や都市部の運転シナリオで、自動運転に不可欠です。
カメラパラメータを条件入力として用いる,新しいカメラジオメトリー適応型マルチスケール畳み込み法を提案する。
魚眼ウッドキャップサラウンドビューデータセットに対する我々のアプローチを評価し,従来のアプローチよりも大幅に改善した。
論文 参考訳(メタデータ) (2021-04-09T15:20:20Z) - Kunster -- AR Art Video Maker -- Real time video neural style transfer
on mobile devices [0.0]
我々は、モバイルデバイス上で実行できるリアルタイムビデオ(毎秒25フレーム以上)にニューラルスタイルの転送を適用しました。
また、時間的コヒーレンスを達成するための作業について検討し、安定したビデオを実現するための微調整、既に訓練済みのモデルを提案する。
実験のセクションでは、iOSデバイスに関する作業結果を示し、現在のAndroidデバイスに存在する問題と今後の可能性について議論する。
論文 参考訳(メタデータ) (2020-05-07T12:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。