論文の概要: Knolling Bot: Learning Robotic Object Arrangement from Tidy Demonstrations
- arxiv url: http://arxiv.org/abs/2310.04566v2
- Date: Fri, 15 Mar 2024 18:37:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-20 03:32:38.143145
- Title: Knolling Bot: Learning Robotic Object Arrangement from Tidy Demonstrations
- Title(参考訳): Knollingボット:Tidy Demonstrationsからロボットオブジェクトアレンジメントを学習する
- Authors: Yuhang Hu, Zhizhuo Zhang, Xinyue Zhu, Ruibo Liu, Philippe Wyder, Hod Lipson,
- Abstract要約: 本稿では,ロボットがタイディネスの概念を理解し,再現できる自己指導型学習フレームワークを提案する。
我々は、トランスフォーマーニューラルネットワークを利用して、その後のオブジェクトの配置を予測する。
提案手法は, 汎用的なタイディネスの概念を訓練するだけでなく, カスタマイズされたタイディテーブルを生成するために, 人間の好みを取り入れることもできる。
- 参考スコア(独自算出の注目度): 11.873522421121173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Addressing the challenge of organizing scattered items in domestic spaces is complicated by the diversity and subjective nature of tidiness. Just as the complexity of human language allows for multiple expressions of the same idea, household tidiness preferences and organizational patterns vary widely, so presetting object locations would limit the adaptability to new objects and environments. Inspired by advancements in natural language processing (NLP), this paper introduces a self-supervised learning framework that allows robots to understand and replicate the concept of tidiness from demonstrations of well-organized layouts, akin to using conversational datasets to train Large Language Models(LLM). We leverage a transformer neural network to predict the placement of subsequent objects. We demonstrate a ``knolling'' system with a robotic arm and an RGB camera to organize items of varying sizes and quantities on a table. Our method not only trains a generalizable concept of tidiness, enabling the model to provide diverse solutions and adapt to different numbers of objects, but it can also incorporate human preferences to generate customized tidy tables without explicit target positions for each object.
- Abstract(参考訳): 家庭空間に散在するアイテムを整理するという課題は, 多様性と主観性によって複雑化している。
人間の言語の複雑さが同じ考えの複数の表現を可能にするのと同じように、家庭の嗜好や組織パターンは様々であり、事前設定されたオブジェクトの位置は、新しいオブジェクトや環境への適応性を制限します。
自然言語処理(NLP)の進歩にインスパイアされた本論文では,対話型データセットを用いて大規模言語モデル(LLM)を訓練するのと同じような,適切に構成されたレイアウトのデモンストレーションから,ロボットが丁寧さの概念を理解し,再現することのできる,自己指導型学習フレームワークを提案する。
我々は、トランスフォーマーニューラルネットワークを利用して、その後のオブジェクトの配置を予測する。
ロボットアームとRGBカメラを備えた'knolling'システムを用いて、テーブル上のさまざまなサイズと量のアイテムを整理する。
提案手法は, 汎用性の概念を訓練し, 多様な解を提供し, 異なる数の物体に適応させることができるだけでなく, 対象物に対して明示的な目標位置を伴わずに, カスタマイズされたテーブルを生成するために, 人間の好みを組み込むこともできる。
関連論文リスト
- Improving Generalization of Language-Conditioned Robot Manipulation [29.405161073483175]
いくつかの実演からオブジェクトアレンジメントタスクを学習するフレームワークを提案する。
シミュレーション環境と実世界のロボット環境の両方において,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-08-04T13:29:26Z) - A roadmap for AI in robotics [55.87087746398059]
AIの可能性を生かして、私たちの日常生活にロボットを配備する上での、際立った障壁に取り組みたいと考えています。
この記事では、1990年代からロボット工学におけるAIが達成したことを評価し、課題と約束を列挙した短期的・中期的な研究ロードマップを提案する。
論文 参考訳(メタデータ) (2025-07-26T15:18:28Z) - LIAM: Multimodal Transformer for Language Instructions, Images, Actions and Semantic Maps [18.602777449136738]
言語,イメージ,アクション,マップの入力に基づいて,アクションの書き起こしを予測するエンド・ツー・エンドのモデルであるLIAMを提案する。
国内タスクのシミュレータ生成ベンチマークであるALFREDデータセットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2025-03-15T18:54:06Z) - Context-Aware Command Understanding for Tabletop Scenarios [1.7082212774297747]
本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。
音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することにより、ロボットに対して実行可能な指示を抽出する。
システムの長所と短所、特にマルチモーダルコマンド解釈の扱い方について論じる。
論文 参考訳(メタデータ) (2024-10-08T20:46:39Z) - Controlling diverse robots by inferring Jacobian fields with deep networks [48.279199537720714]
自然生物の複雑な構造と多様な機能を反映することは、ロボット工学における長年の課題である。
本稿では,深層ニューラルネットワークを用いてロボットの映像ストリームをバイスモータヤコビアン場にマッピングする手法を提案する。
提案手法は,正確なクローズドループ制御を実現し,各ロボットの因果動的構造を復元する。
論文 参考訳(メタデータ) (2024-07-11T17:55:49Z) - HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation [50.616995671367704]
そこで本研究では,人型ロボットが器用な手を備えた,高次元シミュレーション型ロボット学習ベンチマークHumanoidBenchを提案する。
その結果,現在最先端の強化学習アルゴリズムがほとんどのタスクに支障をきたすのに対して,階層的学習アプローチはロバストな低レベルポリシーに支えられた場合,優れた性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:45:44Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - simPLE: a visuotactile method learned in simulation to precisely pick,
localize, regrasp, and place objects [16.178331266949293]
本稿では,精密かつ汎用的なピック・アンド・プレイスの解法について検討する。
正確なピック・アンド・プレイスの解法としてシミュレートを提案する。
SimPLEは、オブジェクトCADモデルのみを前提に、オブジェクトの選択、再彫刻、配置を正確に学習する。
論文 参考訳(メタデータ) (2023-07-24T21:22:58Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Efficient automatic design of robots [43.968830087704035]
本研究では,ロボットの構造を1台のコンシューマ級コンピュータ上で数秒以内の所望の動作を示すために,初めて非ノボ最適化を示す。
他の勾配に基づくロボット設計法とは異なり、このアルゴリズムは特定の解剖学的形態を前提としていない。
この進歩は、医療、環境、車両、宇宙ベースのタスクのためのユニークで有用な機械の設計、製造、展開をほぼ瞬時に約束する。
論文 参考訳(メタデータ) (2023-06-05T21:30:52Z) - Aligning Robot and Human Representations [50.070982136315784]
ロボット工学における現在の表現学習アプローチは、表現アライメントの目的がいかにうまく達成されているかの観点から研究されるべきである。
問題を数学的に定義し、その鍵となるデシダータを同定し、この形式主義の中に現在の方法を置く。
論文 参考訳(メタデータ) (2023-02-03T18:59:55Z) - HERD: Continuous Human-to-Robot Evolution for Learning from Human
Demonstration [57.045140028275036]
本研究では,マイクロ進化的強化学習を用いて,操作スキルを人間からロボットに伝達可能であることを示す。
本稿では,ロボットの進化経路とポリシーを協調的に最適化する多次元進化経路探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-08T15:56:13Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - VLMbench: A Compositional Benchmark for Vision-and-Language Manipulation [11.92150014766458]
我々は、人間の指示に従ってオブジェクト操作を行う、最後の1マイルのエンボディエージェントの空白を埋めることを目指している。
我々は、視覚・言語操作ベンチマーク(VLMbench)を構築し、分類されたロボット操作タスクに関する様々な言語命令を含む。
モジュラールールベースのタスクテンプレートが作成され、言語命令でロボットのデモを自動的に生成する。
論文 参考訳(メタデータ) (2022-06-17T03:07:18Z) - Aligning Robot Representations with Humans [5.482532589225552]
主な問題は、ある環境で学んだ知識を別の環境に移す方法である。
我々は、人間が世界でシステム成功の究極的な評価者になるので、ロボットに重要なタスクの側面を伝えるのに最も適していると仮定する。
このアプローチをインタラクティブシステムの構築に利用し、高度な協調ロボットをより良く開発するための今後の方向性を提供する3つの分野を強調します。
論文 参考訳(メタデータ) (2022-05-15T15:51:05Z) - Learning Perceptual Concepts by Bootstrapping from Human Queries [41.07749131023931]
本稿では,ロボットが概念の低次元変種を学習し,それを用いて高次元空間における概念学習のためのより大きなデータセットを生成する手法を提案する。
これにより、オブジェクトのポーズやバウンディングボックスなど、トレーニング時にのみアクセス可能な意味的に意味のある特権情報の活用が可能になる。
論文 参考訳(メタデータ) (2021-11-09T16:43:46Z) - V-MAO: Generative Modeling for Multi-Arm Manipulation of Articulated
Objects [51.79035249464852]
本稿では,音声による物体のマルチアーム操作を学習するためのフレームワークを提案する。
本フレームワークは,各ロボットアームの剛部上の接触点分布を学習する変動生成モデルを含む。
論文 参考訳(メタデータ) (2021-11-07T02:31:09Z) - Learning to Regrasp by Learning to Place [19.13976401970985]
ロボットの現在の握りポーズが望ましい操作タスクの実行に失敗する場合、レギュラピングが必要である。
本研究では,ロボットが物体と支援環境の部分点雲を入力として取り出し,一連のピック・アンド・プレイス操作を出力するシステムを提案する。
我々は,多様な物体を再現することで,73.3%の成功率を達成できることを示す。
論文 参考訳(メタデータ) (2021-09-18T03:07:06Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Predicting Stable Configurations for Semantic Placement of Novel Objects [37.18437299513799]
我々のゴールは、新しい環境における学習された意味的関係に従って、ロボットが未確認の物体を配置できるようにすることである。
我々は、未知のオブジェクトのセマンティック配置のための計画アルゴリズムと密に統合するために、モデルとトレーニングをゼロから構築する。
提案手法は,RGB-Dセンシングのみによる形状の異なるシーンにおける未知物体のセマンティック・アレンジメントのための動作計画を可能にする。
論文 参考訳(メタデータ) (2021-08-26T23:05:05Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - NeRP: Neural Rearrangement Planning for Unknown Objects [49.191284597526]
我々は,多段階のニューラルオブジェクト再構成計画のためのディープラーニングに基づくアプローチであるNeRP(Neural Rearrangement Planning)を提案する。
NeRPは、シミュレーションデータに基づいてトレーニングされ、現実世界に一般化される、これまで見たことのないオブジェクトで動作する。
論文 参考訳(メタデータ) (2021-06-02T17:56:27Z) - Sensorimotor representation learning for an "active self" in robots: A
model survey [10.649413494649293]
人間では、これらの能力は宇宙で私たちの身体を知覚する能力と関連していると考えられている。
本稿では,これらの能力の発達過程について概説する。
人工エージェントにおける自己感覚の出現を可能にする理論計算フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-25T16:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。