論文の概要: Visual Perspective Taking for Opponent Behavior Modeling
- arxiv url: http://arxiv.org/abs/2105.05145v1
- Date: Tue, 11 May 2021 16:02:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 14:09:09.735059
- Title: Visual Perspective Taking for Opponent Behavior Modeling
- Title(参考訳): 対物行動モデリングのための視覚的視点
- Authors: Boyuan Chen, Yuhang Hu, Robert Kwiatkowski, Shuran Song, Hod Lipson
- Abstract要約: ロボットのためのエンドツーエンドの長期視覚予測フレームワークを提案する。
視覚的に隠れて見るという文脈で、我々のアプローチを実証する。
我々は,実世界のマルチエージェント活動に完全に統合できる物理ロボットの能力において,視覚行動モデリングとパースペクティブテイキングスキルが重要な役割を果たすことを示唆する。
- 参考スコア(独自算出の注目度): 22.69165968663182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to engage in complex social interaction, humans learn at a young age
to infer what others see and cannot see from a different point-of-view, and
learn to predict others' plans and behaviors. These abilities have been mostly
lacking in robots, sometimes making them appear awkward and socially inept.
Here we propose an end-to-end long-term visual prediction framework for robots
to begin to acquire both these critical cognitive skills, known as Visual
Perspective Taking (VPT) and Theory of Behavior (TOB). We demonstrate our
approach in the context of visual hide-and-seek - a game that represents a
cognitive milestone in human development. Unlike traditional visual predictive
model that generates new frames from immediate past frames, our agent can
directly predict to multiple future timestamps (25s), extrapolating by 175%
beyond the training horizon. We suggest that visual behavior modeling and
perspective taking skills will play a critical role in the ability of physical
robots to fully integrate into real-world multi-agent activities. Our website
is at http://www.cs.columbia.edu/~bchen/vpttob/.
- Abstract(参考訳): 複雑な社会的相互作用に取り組むために、人間は若い時に学習し、他人が見ているものや見えないものを異なる視点から推測し、他人の計画や行動を予測することを学ぶ。
これらの能力はロボットにはほとんど欠けており、時にはぎこちなく社会的に不適当に見える。
本稿では,ロボットがこれらの重要な認知的スキル,すなわち視覚視点撮影(vpt)と行動理論(tob)の双方を習得し始めるための,エンドツーエンドの長期視覚予測フレームワークを提案する。
私たちは、人間の発達における認知的なマイルストーンを表すゲームである視覚的隠れと探究の文脈で、私たちのアプローチを実証します。
過去のフレームから新しいフレームを生成する従来の視覚的予測モデルとは異なり、エージェントはトレーニングの地平線を175%超過して、複数の将来のタイムスタンプ(25秒)を直接予測することができる。
我々は,実世界のマルチエージェント活動に完全に統合できる物理ロボットの能力において,視覚行動モデリングとパースペクティブテイキングスキルが重要な役割を果たすことを示唆する。
私たちのウェブサイトはhttp://www.cs.columbia.edu/~bchen/vpttob/です。
関連論文リスト
- Improving Visual Perception of a Social Robot for Controlled and
In-the-wild Human-robot Interaction [10.260966795508569]
ソーシャルロボットが深層学習に基づく視覚知覚モデルを採用すると、客観的相互作用性能と主観的ユーザ体験がどう影響するかは明らかでない。
我々は、ペッパーロボットの視覚知覚機能を改善するために、最先端の人間の知覚と追跡モデルを用いている。
論文 参考訳(メタデータ) (2024-03-04T06:47:06Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - What Matters to You? Towards Visual Representation Alignment for Robot
Learning [81.30964736676103]
人のために運用する場合、ロボットはエンドユーザーの好みに合わせて報酬を最適化する必要がある。
本稿では、視覚的表現アライメント問題を解決するためのRAPL(Representation-Aligned Preference-based Learning)を提案する。
論文 参考訳(メタデータ) (2023-10-11T23:04:07Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - A-ACT: Action Anticipation through Cycle Transformations [89.83027919085289]
未来を予測できる人間の能力が、機械学習アルゴリズムにどのように移行できるかを分析するために、一歩後退します。
人間の心理学に関する最近の研究は、発生を予測して、人間の脳が両方のシステムにカウントされていることを説明している。
本研究では,行動予測作業における各システムの影響について検討し,学習フレームワークに統合するためのパラダイムを導入する。
論文 参考訳(メタデータ) (2022-04-02T21:50:45Z) - Visual Intelligence through Human Interaction [43.82765410550207]
我々は,新しいインタラクション戦略により,コンピュータビジョンのための新しい形式のデータ収集と評価が可能になることを実証する。
クラウドソーシングインタフェースにより、有料データ収集を桁違いにスピードアップし、現代の視覚モデルにおけるデータ急激な性質を満たす。
第3に,人間の生成的視覚モデルの評価が信頼性が高く,手頃な価格で,心理物理学理論に根ざしたシステムを開発する。
論文 参考訳(メタデータ) (2021-11-12T19:37:17Z) - What Can I Do Here? Learning New Skills by Imagining Visual Affordances [128.65223577406587]
提案手法は,ロボットが可利用性の視覚的表現を学習する上で,どのような結果が得られるかを示す。
実際、事前データは、ロボットが不慣れな状況に遭遇したとき、そのモデルから潜在的な結果をサンプリングするように、どのような結果が得られるかを学ぶのに使用される。
本稿では, VAL(visuomotor affordance learning)を用いて, 生画像入力で動作する目標条件付きポリシーの学習を行う。
論文 参考訳(メタデータ) (2021-06-01T17:58:02Z) - Smile Like You Mean It: Driving Animatronic Robotic Face with Learned
Models [11.925808365657936]
人間のような社会ロボットを構築するには、知的で一般化可能な表情を生成する能力が不可欠である。
顔模倣のための視覚に基づく自己教師型学習フレームワークを開発した。
本手法は, 多様な被験者に対して, 正確かつ多様な顔の模倣を可能にする。
論文 参考訳(メタデータ) (2021-05-26T17:57:19Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。