論文の概要: What can human minimal videos tell us about dynamic recognition models?
- arxiv url: http://arxiv.org/abs/2104.09447v1
- Date: Mon, 19 Apr 2021 16:53:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 16:52:42.997416
- Title: What can human minimal videos tell us about dynamic recognition models?
- Title(参考訳): 人間の最小限のビデオは、動的認識モデルについて何を教えてくれるか?
- Authors: Guy Ben-Yosef, Gabriel Kreiman, Shimon Ullman
- Abstract要約: 人間の視覚オブジェクトとその部分は、純粋に空間的または純粋に時間的情報から視覚的に認識することができる。
物体と動作の視覚認識は,空間的および運動的手がかりを効率的に組み合わせて実現できることを示す。
- 参考スコア(独自算出の注目度): 14.201816626446888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In human vision objects and their parts can be visually recognized from
purely spatial or purely temporal information but the mechanisms integrating
space and time are poorly understood. Here we show that human visual
recognition of objects and actions can be achieved by efficiently combining
spatial and motion cues in configurations where each source on its own is
insufficient for recognition. This analysis is obtained by identifying minimal
videos: these are short and tiny video clips in which objects, parts, and
actions can be reliably recognized, but any reduction in either space or time
makes them unrecognizable. State-of-the-art deep networks for dynamic visual
recognition cannot replicate human behavior in these configurations. This gap
between humans and machines points to critical mechanisms in human dynamic
vision that are lacking in current models.
- Abstract(参考訳): 人間の視覚では、物体とその部分は純粋に空間的または純粋に時間的情報から視覚的に認識できるが、空間と時間を統合するメカニズムはよく分かっていない。
ここでは,物体と行動の人間の視覚的認識は,各音源が認識に不十分な構成において,空間的および運動的手がかりを効率的に組み合わせることによって達成できることを示す。
この分析は、最小限の動画を識別することで得られる。これらは、オブジェクト、部品、アクションを確実に認識できる、短くて小さなビデオクリップである。
ダイナミックな視覚認識のための最先端のディープネットワークは、これらの構成で人間の行動を再現できない。
この人間と機械のギャップは、現在のモデルに欠けている人間のダイナミックビジョンにおける重要なメカニズムを示している。
関連論文リスト
- EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - Seeing Objects in a Cluttered World: Computational Objectness from
Motion in Video [0.0]
物体が重なり合う物体と物理的に異なるものとして、世界の視覚的に不連続な表面を認識することは、視覚的知覚の基礎となる。
対象モデルを持たない現象学から客観性を推定するための,単純だが新しい手法を提案する。
ぼやけやカメラの震えがあっても、個々の被写体をぼやけたシーンでしっかりと認識できることを示す。
論文 参考訳(メタデータ) (2024-02-02T03:57:11Z) - A Symbolic Representation of Human Posture for Interpretable Learning
and Reasoning [2.678461526933908]
我々は,人間の姿勢を,より親しみやすい言葉で表現する質的空間推論手法を導入する。
本稿では,2つのレベルでのシンボル表現の導出と,その予備的利用について述べる。
論文 参考訳(メタデータ) (2022-10-17T12:22:13Z) - Learning Motion-Dependent Appearance for High-Fidelity Rendering of
Dynamic Humans from a Single Camera [49.357174195542854]
外観のダイナミクスを学ぶ上で重要な課題は、違法に大量の観測を必要とすることである。
本手法は,1つの視点映像から,身体のポーズや新しいビューを時間的に協調的に生成できることを示す。
論文 参考訳(メタデータ) (2022-03-24T00:22:03Z) - Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。
文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文 参考訳(メタデータ) (2021-10-07T15:30:18Z) - From Movement Kinematics to Object Properties: Online Recognition of
Human Carefulness [112.28757246103099]
ロボットは、視覚だけで、人間のパートナーが物体を動かす際に注意を払っているかを、どのようにオンラインで推測できるかを示す。
我々は,低解像度カメラでも高い精度(最大81.3%)でこの推論を行うことができることを示した。
パートナーの行動を観察することによる動きの注意の迅速な認識により、ロボットはオブジェクトに対する行動に適応し、人間のパートナーと同じケアの度合いを示すことができる。
論文 参考訳(メタデータ) (2021-09-01T16:03:13Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - View-invariant action recognition [3.553493344868414]
人間の行動によって生じる多面的外見の変動パターンは、実行された行動を特定するための鍵となる。
ビュー不変行動認識の研究は、見えない視点から人間の行動を認識することでこの問題に対処する。
論文 参考訳(メタデータ) (2020-09-01T18:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。