論文の概要: Adding Knowledge to Unsupervised Algorithms for the Recognition of
Intent
- arxiv url: http://arxiv.org/abs/2011.06219v1
- Date: Thu, 12 Nov 2020 05:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 07:17:12.656128
- Title: Adding Knowledge to Unsupervised Algorithms for the Recognition of
Intent
- Title(参考訳): インテント認識のための教師なしアルゴリズムへの知識の追加
- Authors: Stuart Synakowski, Qianli Feng, Aleix Martinez
- Abstract要約: 我々は,シーン内のエージェントの動作が意図的か意図的かを,その3Dキネマティクスに基づいて推定できるアルゴリズムを導出する。
この基本的な知識を追加することで、単純な教師なしのアルゴリズムがもたらされることを示す。
これらのデータセットの実験により、我々のアルゴリズムは、トレーニングデータなしでも、アクションが意図的かどうかを認識できることが示されている。
- 参考スコア(独自算出の注目度): 3.0079490585515343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer vision algorithms performance are near or superior to humans in the
visual problems including object recognition (especially those of fine-grained
categories), segmentation, and 3D object reconstruction from 2D views. Humans
are, however, capable of higher-level image analyses. A clear example,
involving theory of mind, is our ability to determine whether a perceived
behavior or action was performed intentionally or not. In this paper, we derive
an algorithm that can infer whether the behavior of an agent in a scene is
intentional or unintentional based on its 3D kinematics, using the knowledge of
self-propelled motion, Newtonian motion and their relationship. We show how the
addition of this basic knowledge leads to a simple, unsupervised algorithm. To
test the derived algorithm, we constructed three dedicated datasets from
abstract geometric animation to realistic videos of agents performing
intentional and non-intentional actions. Experiments on these datasets show
that our algorithm can recognize whether an action is intentional or not, even
without training data. The performance is comparable to various supervised
baselines quantitatively, with sensible intentionality segmentation
qualitatively.
- Abstract(参考訳): コンピュータビジョンアルゴリズムの性能は、物体認識(特に細粒度のカテゴリ)、セグメンテーション、および2Dビューからの3Dオブジェクト再構成を含む視覚的問題において、人間に近づいたか優れている。
しかし、人間は高いレベルの画像分析ができる。
心の理論を含む明確な例は、知覚された行動や行動が故意に行われたかどうかを判断する能力である。
本稿では,シーン内のエージェントの動作が,自走運動,ニュートン運動,およびそれらの関係の知識を用いて,その3次元運動学に基づいて意図的・意図的か否かを推定できるアルゴリズムを導出する。
この基本的な知識の追加が、単純で教師なしのアルゴリズムにどのようにつながるかを示す。
このアルゴリズムをテストするために,抽象幾何学アニメーションから意図的および非意図的動作を行うエージェントのリアルビデオまで,3つの専用データセットを構築した。
これらのデータセットの実験により、我々のアルゴリズムは、トレーニングデータなしでも、アクションが意図的かどうかを認識できることを示した。
パフォーマンスは様々な教師付きベースラインと定量的に比較でき、合理的な意図性セグメント化を定性的に行う。
関連論文リスト
- Explaining Deep Face Algorithms through Visualization: A Survey [57.60696799018538]
本研究は、顔領域における説明可能性アルゴリズムの第一種メタ分析を行う。
既存のフェース説明可能性について概観し、フェースネットワークの構造と階層に関する貴重な知見を明らかにする。
論文 参考訳(メタデータ) (2023-09-26T07:16:39Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Collaborative Learning for Hand and Object Reconstruction with
Attention-guided Graph Convolution [49.10497573378427]
インタラクション中の手や物体のポーズと形状を推定すると、拡張現実や仮想現実を含む多くの応用が見つかる。
我々のアルゴリズムはオブジェクトモデルへの最適化であり、手動オブジェクトの相互作用を管理する物理規則を学習する。
広範に使用されている4つのベンチマークを用いて実験したところ、我々のフレームワークは3次元ポーズ推定における最先端の精度を超えて達成でき、また、密集した3次元手や物体の形状を復元できることがわかった。
論文 参考訳(メタデータ) (2022-04-27T17:00:54Z) - Modeling human intention inference in continuous 3D domains by inverse
planning and body kinematics [31.421686048250827]
本稿では,3次元運動の領域における目標推定モデルを評価するための計算フレームワークについて述べる。
我々は,人間の観察者が目標に到達した俳優の意図を注意散らしの中で推測する,新たな目標到達タスクを用いた3つの行動実験において,我々の枠組みを評価する。
このようなシナリオでは,人間の観察者は逆体キネマティクスに依存しており,身体キネマティクスをモデル化することで推論アルゴリズムの性能を向上させることが示唆されている。
論文 参考訳(メタデータ) (2021-12-02T00:55:58Z) - Spot What Matters: Learning Context Using Graph Convolutional Networks
for Weakly-Supervised Action Detection [0.0]
ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。
我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。
実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-28T21:37:18Z) - Synergies Between Affordance and Geometry: 6-DoF Grasp Detection via
Implicit Representations [20.155920256334706]
本研究では,3次元再構築と把持学習が密接な関係にあることを示す。
共有表現のマルチタスク学習を通じて,把握能力と3次元再構築のシナジーを活用することを提案する。
本手法は,成功率の把握において,ベースラインを10%以上上回っている。
論文 参考訳(メタデータ) (2021-04-04T05:46:37Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - "What's This?" -- Learning to Segment Unknown Objects from Manipulation
Sequences [27.915309216800125]
本稿では,ロボットマニピュレータを用いた自己教師型把握対象セグメンテーションのための新しいフレームワークを提案する。
本稿では,モーションキューとセマンティック知識を共同で組み込んだ,エンドツーエンドのトレーニング可能な単一アーキテクチャを提案する。
我々の手法は、運動ロボットや3Dオブジェクトモデルの視覚的登録にも、正確な手眼の校正や追加センサーデータにも依存しない。
論文 参考訳(メタデータ) (2020-11-06T10:55:28Z) - Memory-augmented Dense Predictive Coding for Video Representation
Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。
本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。
いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-08-03T17:57:01Z) - Unsupervised 3D Human Pose Representation with Viewpoint and Pose
Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。
本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。
提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-14T14:25:22Z) - Can Deep Learning Recognize Subtle Human Activities? [8.133739801185271]
本稿では,人間による行動分類の課題を提案するが,最先端のディープラーニングモデルでは不十分である。
原則の証明として、飲酒、読書、座りという3つの模範的なタスクについて考察する。
最新のコンピュータビジョンモデルで到達した最良の精度は、それぞれ61.7%、62.8%、76.8%であった。
論文 参考訳(メタデータ) (2020-03-30T22:45:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。