Fugu-MT 論文翻訳(概要): Adding Knowledge to Unsupervised Algorithms for the Recognition of Intent

論文の概要: Adding Knowledge to Unsupervised Algorithms for the Recognition of Intent

arxiv url: http://arxiv.org/abs/2011.06219v1
Date: Thu, 12 Nov 2020 05:57:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-26 07:17:12.656128
Title: Adding Knowledge to Unsupervised Algorithms for the Recognition of Intent
Title（参考訳）: インテント認識のための教師なしアルゴリズムへの知識の追加
Authors: Stuart Synakowski, Qianli Feng, Aleix Martinez
Abstract要約: 我々は,シーン内のエージェントの動作が意図的か意図的かを,その3Dキネマティクスに基づいて推定できるアルゴリズムを導出する。この基本的な知識を追加することで、単純な教師なしのアルゴリズムがもたらされることを示す。これらのデータセットの実験により、我々のアルゴリズムは、トレーニングデータなしでも、アクションが意図的かどうかを認識できることが示されている。
参考スコア（独自算出の注目度）: 3.0079490585515343
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Computer vision algorithms performance are near or superior to humans in the visual problems including object recognition (especially those of fine-grained categories), segmentation, and 3D object reconstruction from 2D views. Humans are, however, capable of higher-level image analyses. A clear example, involving theory of mind, is our ability to determine whether a perceived behavior or action was performed intentionally or not. In this paper, we derive an algorithm that can infer whether the behavior of an agent in a scene is intentional or unintentional based on its 3D kinematics, using the knowledge of self-propelled motion, Newtonian motion and their relationship. We show how the addition of this basic knowledge leads to a simple, unsupervised algorithm. To test the derived algorithm, we constructed three dedicated datasets from abstract geometric animation to realistic videos of agents performing intentional and non-intentional actions. Experiments on these datasets show that our algorithm can recognize whether an action is intentional or not, even without training data. The performance is comparable to various supervised baselines quantitatively, with sensible intentionality segmentation qualitatively.
Abstract（参考訳）: コンピュータビジョンアルゴリズムの性能は、物体認識(特に細粒度のカテゴリ)、セグメンテーション、および2Dビューからの3Dオブジェクト再構成を含む視覚的問題において、人間に近づいたか優れている。しかし、人間は高いレベルの画像分析ができる。心の理論を含む明確な例は、知覚された行動や行動が故意に行われたかどうかを判断する能力である。本稿では,シーン内のエージェントの動作が,自走運動,ニュートン運動,およびそれらの関係の知識を用いて,その3次元運動学に基づいて意図的・意図的か否かを推定できるアルゴリズムを導出する。この基本的な知識の追加が、単純で教師なしのアルゴリズムにどのようにつながるかを示す。このアルゴリズムをテストするために,抽象幾何学アニメーションから意図的および非意図的動作を行うエージェントのリアルビデオまで,3つの専用データセットを構築した。これらのデータセットの実験により、我々のアルゴリズムは、トレーニングデータなしでも、アクションが意図的かどうかを認識できることを示した。パフォーマンスは様々な教師付きベースラインと定量的に比較でき、合理的な意図性セグメント化を定性的に行う。

関連論文リスト

Object-centric 3D Motion Field for Robot Learning from Human Videos [56.9436352861611]
本稿では,人間ビデオからのロボット学習の動作を表現するために,物体中心の3次元運動場を提案する。ゼロショット制御のためのビデオからこの表現を抽出するための新しいフレームワークを提案する。実験の結果,提案手法は最新の手法に比べて3次元動作推定誤差を50%以上削減できることがわかった。
論文参考訳（メタデータ） (2025-06-04T17:59:06Z)
Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。 GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文参考訳（メタデータ） (2024-07-22T06:12:21Z)
Intent3D: 3D Object Detection in RGB-D Scans Based on Human Intention [86.39271731460927]
RGB-Dを用いた3次元物体検出における新たな課題として,「背中を支えたいもの」などの人間の意図に基づく3次元対象物検出がある。 ScanNetデータセットの1,042のシーンから209のきめ細かいクラスに関連付けられた44,990の意図的テキストからなる新しいIntent3Dデータセットを紹介した。我々はまた、この意図に基づく検出問題に対処するために設計された、我々のユニークなアプローチであるIntentNetを提案する。
論文参考訳（メタデータ） (2024-05-28T15:48:39Z)
Gaze-Guided Graph Neural Network for Action Anticipation Conditioned on Intention [10.149523817328921]
本稿では,映像入力から視覚意味グラフを構築するGaze-Guided Action Precipationアルゴリズムを提案する。本手法では,グラフニューラルネットワークを用いてエージェントの意図を認識し,その意図を満たすためにアクションシーケンスを予測する。提案手法は最先端技術より優れ、18種類の意図認識の精度が7%向上した。
論文参考訳（メタデータ） (2024-04-10T21:03:23Z)
Explaining Deep Face Algorithms through Visualization: A Survey [57.60696799018538]
本研究は、顔領域における説明可能性アルゴリズムの第一種メタ分析を行う。既存のフェース説明可能性について概観し、フェースネットワークの構造と階層に関する貴重な知見を明らかにする。
論文参考訳（メタデータ） (2023-09-26T07:16:39Z)
ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文参考訳（メタデータ） (2022-12-12T13:10:19Z)
Modeling human intention inference in continuous 3D domains by inverse planning and body kinematics [31.421686048250827]
本稿では,3次元運動の領域における目標推定モデルを評価するための計算フレームワークについて述べる。我々は,人間の観察者が目標に到達した俳優の意図を注意散らしの中で推測する,新たな目標到達タスクを用いた3つの行動実験において,我々の枠組みを評価する。このようなシナリオでは,人間の観察者は逆体キネマティクスに依存しており,身体キネマティクスをモデル化することで推論アルゴリズムの性能を向上させることが示唆されている。
論文参考訳（メタデータ） (2021-12-02T00:55:58Z)
Spot What Matters: Learning Context Using Graph Convolutional Networks for Weakly-Supervised Action Detection [0.0]
ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2021-07-28T21:37:18Z)
Synergies Between Affordance and Geometry: 6-DoF Grasp Detection via Implicit Representations [20.155920256334706]
本研究では,3次元再構築と把持学習が密接な関係にあることを示す。共有表現のマルチタスク学習を通じて,把握能力と3次元再構築のシナジーを活用することを提案する。本手法は,成功率の把握において,ベースラインを10%以上上回っている。
論文参考訳（メタデータ） (2021-04-04T05:46:37Z)
Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文参考訳（メタデータ） (2021-03-09T19:14:33Z)
"What's This?" -- Learning to Segment Unknown Objects from Manipulation Sequences [27.915309216800125]
本稿では,ロボットマニピュレータを用いた自己教師型把握対象セグメンテーションのための新しいフレームワークを提案する。本稿では,モーションキューとセマンティック知識を共同で組み込んだ,エンドツーエンドのトレーニング可能な単一アーキテクチャを提案する。我々の手法は、運動ロボットや3Dオブジェクトモデルの視覚的登録にも、正確な手眼の校正や追加センサーデータにも依存しない。
論文参考訳（メタデータ） (2020-11-06T10:55:28Z)
Memory-augmented Dense Predictive Coding for Video Representation Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文参考訳（メタデータ） (2020-08-03T17:57:01Z)
Unsupervised 3D Human Pose Representation with Viewpoint and Pose Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2020-07-14T14:25:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。