論文の概要: Adding Knowledge to Unsupervised Algorithms for the Recognition of
Intent
- arxiv url: http://arxiv.org/abs/2011.06219v1
- Date: Thu, 12 Nov 2020 05:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 07:17:12.656128
- Title: Adding Knowledge to Unsupervised Algorithms for the Recognition of
Intent
- Title(参考訳): インテント認識のための教師なしアルゴリズムへの知識の追加
- Authors: Stuart Synakowski, Qianli Feng, Aleix Martinez
- Abstract要約: 我々は,シーン内のエージェントの動作が意図的か意図的かを,その3Dキネマティクスに基づいて推定できるアルゴリズムを導出する。
この基本的な知識を追加することで、単純な教師なしのアルゴリズムがもたらされることを示す。
これらのデータセットの実験により、我々のアルゴリズムは、トレーニングデータなしでも、アクションが意図的かどうかを認識できることが示されている。
- 参考スコア(独自算出の注目度): 3.0079490585515343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer vision algorithms performance are near or superior to humans in the
visual problems including object recognition (especially those of fine-grained
categories), segmentation, and 3D object reconstruction from 2D views. Humans
are, however, capable of higher-level image analyses. A clear example,
involving theory of mind, is our ability to determine whether a perceived
behavior or action was performed intentionally or not. In this paper, we derive
an algorithm that can infer whether the behavior of an agent in a scene is
intentional or unintentional based on its 3D kinematics, using the knowledge of
self-propelled motion, Newtonian motion and their relationship. We show how the
addition of this basic knowledge leads to a simple, unsupervised algorithm. To
test the derived algorithm, we constructed three dedicated datasets from
abstract geometric animation to realistic videos of agents performing
intentional and non-intentional actions. Experiments on these datasets show
that our algorithm can recognize whether an action is intentional or not, even
without training data. The performance is comparable to various supervised
baselines quantitatively, with sensible intentionality segmentation
qualitatively.
- Abstract(参考訳): コンピュータビジョンアルゴリズムの性能は、物体認識(特に細粒度のカテゴリ)、セグメンテーション、および2Dビューからの3Dオブジェクト再構成を含む視覚的問題において、人間に近づいたか優れている。
しかし、人間は高いレベルの画像分析ができる。
心の理論を含む明確な例は、知覚された行動や行動が故意に行われたかどうかを判断する能力である。
本稿では,シーン内のエージェントの動作が,自走運動,ニュートン運動,およびそれらの関係の知識を用いて,その3次元運動学に基づいて意図的・意図的か否かを推定できるアルゴリズムを導出する。
この基本的な知識の追加が、単純で教師なしのアルゴリズムにどのようにつながるかを示す。
このアルゴリズムをテストするために,抽象幾何学アニメーションから意図的および非意図的動作を行うエージェントのリアルビデオまで,3つの専用データセットを構築した。
これらのデータセットの実験により、我々のアルゴリズムは、トレーニングデータなしでも、アクションが意図的かどうかを認識できることを示した。
パフォーマンスは様々な教師付きベースラインと定量的に比較でき、合理的な意図性セグメント化を定性的に行う。
関連論文リスト
- Intent3D: 3D Object Detection in RGB-D Scans Based on Human Intention [86.39271731460927]
RGB-Dを用いた3次元物体検出における新たな課題として,「背中を支えたいもの」などの人間の意図に基づく3次元対象物検出がある。
ScanNetデータセットの1,042のシーンから209のきめ細かいクラスに関連付けられた44,990の意図的テキストからなる新しいIntent3Dデータセットを紹介した。
我々はまた、この意図に基づく検出問題に対処するために設計された、我々のユニークなアプローチであるIntentNetを提案する。
論文 参考訳(メタデータ) (2024-05-28T15:48:39Z) - Gaze-Guided Graph Neural Network for Action Anticipation Conditioned on Intention [10.149523817328921]
本稿では,映像入力から視覚意味グラフを構築するGaze-Guided Action Precipationアルゴリズムを提案する。
本手法では,グラフニューラルネットワークを用いてエージェントの意図を認識し,その意図を満たすためにアクションシーケンスを予測する。
提案手法は最先端技術より優れ、18種類の意図認識の精度が7%向上した。
論文 参考訳(メタデータ) (2024-04-10T21:03:23Z) - Explaining Deep Face Algorithms through Visualization: A Survey [57.60696799018538]
本研究は、顔領域における説明可能性アルゴリズムの第一種メタ分析を行う。
既存のフェース説明可能性について概観し、フェースネットワークの構造と階層に関する貴重な知見を明らかにする。
論文 参考訳(メタデータ) (2023-09-26T07:16:39Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Modeling human intention inference in continuous 3D domains by inverse
planning and body kinematics [31.421686048250827]
本稿では,3次元運動の領域における目標推定モデルを評価するための計算フレームワークについて述べる。
我々は,人間の観察者が目標に到達した俳優の意図を注意散らしの中で推測する,新たな目標到達タスクを用いた3つの行動実験において,我々の枠組みを評価する。
このようなシナリオでは,人間の観察者は逆体キネマティクスに依存しており,身体キネマティクスをモデル化することで推論アルゴリズムの性能を向上させることが示唆されている。
論文 参考訳(メタデータ) (2021-12-02T00:55:58Z) - Spot What Matters: Learning Context Using Graph Convolutional Networks
for Weakly-Supervised Action Detection [0.0]
ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。
我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。
実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-28T21:37:18Z) - Synergies Between Affordance and Geometry: 6-DoF Grasp Detection via
Implicit Representations [20.155920256334706]
本研究では,3次元再構築と把持学習が密接な関係にあることを示す。
共有表現のマルチタスク学習を通じて,把握能力と3次元再構築のシナジーを活用することを提案する。
本手法は,成功率の把握において,ベースラインを10%以上上回っている。
論文 参考訳(メタデータ) (2021-04-04T05:46:37Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - "What's This?" -- Learning to Segment Unknown Objects from Manipulation
Sequences [27.915309216800125]
本稿では,ロボットマニピュレータを用いた自己教師型把握対象セグメンテーションのための新しいフレームワークを提案する。
本稿では,モーションキューとセマンティック知識を共同で組み込んだ,エンドツーエンドのトレーニング可能な単一アーキテクチャを提案する。
我々の手法は、運動ロボットや3Dオブジェクトモデルの視覚的登録にも、正確な手眼の校正や追加センサーデータにも依存しない。
論文 参考訳(メタデータ) (2020-11-06T10:55:28Z) - Memory-augmented Dense Predictive Coding for Video Representation
Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。
本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。
いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-08-03T17:57:01Z) - Unsupervised 3D Human Pose Representation with Viewpoint and Pose
Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。
本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。
提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-14T14:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。