論文の概要: H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions
- arxiv url: http://arxiv.org/abs/2210.12521v1
- Date: Sat, 22 Oct 2022 18:39:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 14:57:25.431799
- Title: H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions
- Title(参考訳): H-SAUR: 相互作用から対象関節を理解するための仮説, シミュレーション, 行為, 更新, 繰り返し
- Authors: Kei Ota, Hsiao-Yu Tung, Kevin A. Smith, Anoop Cherian, Tim K. Marks,
Alan Sullivan, Asako Kanezaki, and Joshua B. Tenenbaum
- Abstract要約: The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
- 参考スコア(独自算出の注目度): 62.510951695174604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The world is filled with articulated objects that are difficult to determine
how to use from vision alone, e.g., a door might open inwards or outwards.
Humans handle these objects with strategic trial-and-error: first pushing a
door then pulling if that doesn't work. We enable these capabilities in
autonomous agents by proposing "Hypothesize, Simulate, Act, Update, and Repeat"
(H-SAUR), a probabilistic generative framework that simultaneously generates a
distribution of hypotheses about how objects articulate given input
observations, captures certainty over hypotheses over time, and infer plausible
actions for exploration and goal-conditioned manipulation. We compare our model
with existing work in manipulating objects after a handful of exploration
actions, on the PartNet-Mobility dataset. We further propose a novel
PuzzleBoxes benchmark that contains locked boxes that require multiple steps to
solve. We show that the proposed model significantly outperforms the current
state-of-the-art articulated object manipulation framework, despite using zero
training data. We further improve the test-time efficiency of H-SAUR by
integrating a learned prior from learning-based vision models.
- Abstract(参考訳): 世界は、例えばドアが内側または外側に開くなど、視覚のみからの使用方法を決定するのが難しい、明瞭な物体で満たされている。
人間はこれらのオブジェクトを戦略的に試行錯誤で処理します。
対象がどのように入力された観察を調停するかについての仮説の分布を同時生成する確率的生成フレームワーク「hypothesize, simulation, act, update, and repeat」(h-saur)を提案し,仮説に対する確信を時間とともに捉え,探索や目標条件操作に有効なアクションを推測することで,自律エージェントにおけるこれらの能力を実現する。
我々は、PartNet-Mobilityデータセット上で、少数の探索行動の後、オブジェクトを操作する既存の作業と比較する。
さらに,複数のステップを必要とするロックボックスを含む新しいPuzzleBoxesベンチマークを提案する。
提案手法は,ゼロトレーニングデータを用いながら,最先端のarticulated object manipulation frameworkを著しく上回っていることを示す。
学習に基づくビジョンモデルから学習した事前情報を統合することにより,h-saurのテスト時間効率をさらに向上させる。
関連論文リスト
- Learning Extrinsic Dexterity with Parameterized Manipulation Primitives [8.7221770019454]
我々は、オブジェクトのポーズを変えるために環境を利用する一連のアクションを学習する。
我々のアプローチは、オブジェクトとグリップと環境の間の相互作用を利用してオブジェクトの状態を制御することができる。
拘束されたテーブルトップワークスペースから様々な重量,形状,摩擦特性の箱状物体を選別する手法の評価を行った。
論文 参考訳(メタデータ) (2023-10-26T21:28:23Z) - GAMMA: Generalizable Articulation Modeling and Manipulation for
Articulated Objects [53.965581080954905]
本稿では,GAMMA(Generalizable Articulation Modeling and Manipulating for Articulated Objects)の新たな枠組みを提案する。
GAMMAは,異なるカテゴリーの多種多様な調音オブジェクトから,調音モデルと手取りポーズの相違を学習する。
その結果, GAMMA はSOTA の調音モデルおよび操作アルゴリズムを, 目に見えない, 横断的な調音オブジェクトで著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-28T08:57:14Z) - Leveraging Next-Active Objects for Context-Aware Anticipation in
Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。
本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。
我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文 参考訳(メタデータ) (2023-08-16T12:07:02Z) - Curious Exploration via Structured World Models Yields Zero-Shot Object
Manipulation [19.840186443344]
そこで本研究では,制御ループに帰納バイアスを組み込む構造的世界モデルを用いて,サンプル効率の高い探索を実現することを提案する。
提案手法は,早期にオブジェクトと対話し始める自由プレイ動作を生成し,時間とともにより複雑な動作を発達させる。
論文 参考訳(メタデータ) (2022-06-22T22:08:50Z) - Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding [93.82542533426766]
疑似オブジェクト間の対象オブジェクト選択を促進するため,疑似オブジェクト変換機構(SOT)を提案する。
SOTは既存のCNNとTransformerベースのワンステージ視覚グラウンドにシームレスに統合できる。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-10T06:41:07Z) - KINet: Unsupervised Forward Models for Robotic Pushing Manipulation [8.572983995175909]
キーポイント表現に基づいたオブジェクトインタラクションを推論する、教師なしフレームワークKINetを紹介します。
我々のモデルは、オブジェクトとキーポイント座標を関連付けることを学び、システムのグラフ表現を発見する。
キーポイント空間における物理的推論を学習することにより、我々のモデルは、異なる数のオブジェクトを持つシナリオに自動的に一般化する。
論文 参考訳(メタデータ) (2022-02-18T03:32:08Z) - Improving Object Permanence using Agent Actions and Reasoning [8.847502932609737]
既存のアプローチは、低レベルの知覚からオブジェクト永続性を学ぶ。
我々は、ロボットが実行された動作に関する知識を使用する場合、オブジェクトの永続性を改善することができると論じる。
論文 参考訳(メタデータ) (2021-10-01T07:09:49Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。
補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文 参考訳(メタデータ) (2020-10-28T19:27:26Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。