論文の概要: Can Deep Learning Recognize Subtle Human Activities?
- arxiv url: http://arxiv.org/abs/2003.13852v1
- Date: Mon, 30 Mar 2020 22:45:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 08:12:27.684661
- Title: Can Deep Learning Recognize Subtle Human Activities?
- Title(参考訳): 深層学習は人間の活動を理解することができるか?
- Authors: Vincent Jacquot, Zhuofan Ying, Gabriel Kreiman
- Abstract要約: 本稿では,人間による行動分類の課題を提案するが,最先端のディープラーニングモデルでは不十分である。
原則の証明として、飲酒、読書、座りという3つの模範的なタスクについて考察する。
最新のコンピュータビジョンモデルで到達した最良の精度は、それぞれ61.7%、62.8%、76.8%であった。
- 参考スコア(独自算出の注目度): 8.133739801185271
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Learning has driven recent and exciting progress in computer vision,
instilling the belief that these algorithms could solve any visual task. Yet,
datasets commonly used to train and test computer vision algorithms have
pervasive confounding factors. Such biases make it difficult to truly estimate
the performance of those algorithms and how well computer vision models can
extrapolate outside the distribution in which they were trained. In this work,
we propose a new action classification challenge that is performed well by
humans, but poorly by state-of-the-art Deep Learning models. As a
proof-of-principle, we consider three exemplary tasks: drinking, reading, and
sitting. The best accuracies reached using state-of-the-art computer vision
models were 61.7%, 62.8%, and 76.8%, respectively, while human participants
scored above 90% accuracy on the three tasks. We propose a rigorous method to
reduce confounds when creating datasets, and when comparing human versus
computer vision performance. Source code and datasets are publicly available.
- Abstract(参考訳): ディープラーニングは、コンピュータビジョンの最近の、エキサイティングな進歩を促し、これらのアルゴリズムが視覚的なタスクを解決できるという信念を暗示している。
しかし、コンピュータビジョンアルゴリズムのトレーニングとテストに一般的に使用されるデータセットには、広範に混在する要因がある。
このようなバイアスは、これらのアルゴリズムのパフォーマンスを真に見積もることが難しく、コンピュータビジョンモデルがトレーニング対象のディストリビューションの外でどれだけうまく外挿できるかを推測する。
本研究では,最先端のディープラーニングモデルでは不十分であるが,人間にはうまく機能する新しい行動分類課題を提案する。
原則の証明として,飲酒,読書,着席という3つの模範的な課題を考察する。
最先端のコンピュータビジョンモデルを用いて到達した最高の精度は、それぞれ61.7%、62.8%、76.8%であり、人間の被験者は3つのタスクで90%以上の正確性を示した。
本稿では,データセット作成時と人間とコンピュータの視覚性能を比較する場合のコンファウンドを削減するための厳密な手法を提案する。
ソースコードとデータセットが公開されている。
関連論文リスト
- Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - LightDepth: A Resource Efficient Depth Estimation Approach for Dealing
with Ground Truth Sparsity via Curriculum Learning [2.1984117481505474]
深度推定のための高速かつバッテリ効率のアプローチを提案する。
本手法は,深度推定のためのモデルに依存しないカリキュラムベースの学習を考案する。
実験の結果,我々のモデルが最先端モデルと同等に動作し,応答時間が他のモデルより71%向上していることがわかった。
論文 参考訳(メタデータ) (2022-11-16T01:42:07Z) - How much "human-like" visual experience do current self-supervised
learning algorithms need to achieve human-level object recognition? [13.198689566654108]
その答えは、100万年にわたる自然視体験の順番、つまり、人間の寿命よりも数桁長い順序にあると推定する。
我々は、我々の見積もりと、このかなり驚くべき結果の意味にまつわる主な注意点について論じる。
論文 参考訳(メタデータ) (2021-09-23T17:45:36Z) - Skill Preferences: Learning to Extract and Execute Robotic Skills from
Human Feedback [82.96694147237113]
Skill Preferencesは、人間の好みよりもモデルを学習し、オフラインデータから人間に沿ったスキルを抽出するアルゴリズムである。
SkiPは複雑なマルチステップ操作タスクをシミュレートしたキッチンロボットで実現できることを示す。
論文 参考訳(メタデータ) (2021-08-11T18:04:08Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - Efficient Realistic Data Generation Framework leveraging Deep
Learning-based Human Digitization [0.0]
提案手法は、実際の背景画像として入力され、さまざまなポーズで人物を投入する。
対応するタスクのベンチマークと評価は、実データに対する補足として、合成データが効果的に使用できることを示している。
論文 参考訳(メタデータ) (2021-06-28T08:07:31Z) - Adding Knowledge to Unsupervised Algorithms for the Recognition of
Intent [3.0079490585515343]
我々は,シーン内のエージェントの動作が意図的か意図的かを,その3Dキネマティクスに基づいて推定できるアルゴリズムを導出する。
この基本的な知識を追加することで、単純な教師なしのアルゴリズムがもたらされることを示す。
これらのデータセットの実験により、我々のアルゴリズムは、トレーニングデータなしでも、アクションが意図的かどうかを認識できることが示されている。
論文 参考訳(メタデータ) (2020-11-12T05:57:09Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Learning Accurate and Human-Like Driving using Semantic Maps and
Attention [152.48143666881418]
本稿では,より正確かつ人間らしく運転できるエンド・ツー・エンド駆動モデルについて検討する。
HERE Technologiesのセマンティックマップとビジュアルマップを活用し、既存のDrive360データセットを拡張します。
私たちのモデルは、実世界の運転データ60時間3000kmのDrive360+HEREデータセットでトレーニングされ、評価されています。
論文 参考訳(メタデータ) (2020-07-10T22:25:27Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。