Fugu-MT 論文翻訳(概要): Knolling bot: A Transformer-based Approach to Organizing a Messy Table

論文の概要: Knolling bot: A Transformer-based Approach to Organizing a Messy Table

arxiv url: http://arxiv.org/abs/2310.04566v1
Date: Fri, 6 Oct 2023 20:13:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 17:39:41.924500
Title: Knolling bot: A Transformer-based Approach to Organizing a Messy Table
Title（参考訳）: Knollingbot:Messyテーブルを整理するためのトランスフォーマーベースのアプローチ
Authors: Yuhang Hu, Zhizhuo Zhang, Ruibo Liu, Philippe Wyder, Hod Lipson
Abstract要約: 本研究では,家庭内ロボットに簡単な作業を行う能力を持たせるためのアプローチを提案する。我々は,散らばったアイテムをきれいで空間効率の良い配置に整理する活動である「ノーミング」に特化して焦点をあてる。
参考スコア（独自算出の注目度）: 13.497874275076432
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this study, we propose an approach to equip domestic robots with the ability to perform simple household tidying tasks. We focus specifically on 'knolling,' an activity related to organizing scattered items into neat and space-efficient arrangements. Unlike the uniformity of industrial environments, household settings present unique challenges due to their diverse array of items and the subjectivity of tidiness. Here, we draw inspiration from natural language processing (NLP) and utilize a transformer-based approach that predicts the next position of an item in a sequence of neatly positioned items. We integrate the knolling model with a visual perception model and a physical robot arm to demonstrate a machine that declutters and organizes a dozen freeform items of various shapes and sizes.
Abstract（参考訳）: 本研究では,家庭内ロボットに簡単な作業を行う能力を持たせるためのアプローチを提案する。特に,散在する項目を,空間効率の良い配置に整理する活動である「クノリング」に焦点をあてた。工業環境の均一性とは異なり、家庭の環境は様々な項目や主観性によって独特な課題を呈している。そこで我々は,自然言語処理(NLP)からインスピレーションを得て,アイテムの次の位置を正確に位置付けされた項目列で予測するトランスフォーマーベースのアプローチを利用する。視覚知覚モデルと物理ロボットアームを統合し,様々な形状や大きさのフリーフォームアイテムを分解・整理するマシンを実演する。

関連論文リスト

Improving Generalization of Language-Conditioned Robot Manipulation [29.405161073483175]
いくつかの実演からオブジェクトアレンジメントタスクを学習するフレームワークを提案する。シミュレーション環境と実世界のロボット環境の両方において,本手法の有効性を検証した。
論文参考訳（メタデータ） (2025-08-04T13:29:26Z)
LIAM: Multimodal Transformer for Language Instructions, Images, Actions and Semantic Maps [18.602777449136738]
言語,イメージ,アクション,マップの入力に基づいて,アクションの書き起こしを予測するエンド・ツー・エンドのモデルであるLIAMを提案する。国内タスクのシミュレータ生成ベンチマークであるALFREDデータセットを用いて,本手法の評価を行った。
論文参考訳（メタデータ） (2025-03-15T18:54:06Z)
Context-Aware Command Understanding for Tabletop Scenarios [1.7082212774297747]
本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することにより、ロボットに対して実行可能な指示を抽出する。システムの長所と短所、特にマルチモーダルコマンド解釈の扱い方について論じる。
論文参考訳（メタデータ） (2024-10-08T20:46:39Z)
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文参考訳（メタデータ） (2023-07-28T21:18:02Z)
simPLE: a visuotactile method learned in simulation to precisely pick, localize, regrasp, and place objects [16.178331266949293]
本稿では,精密かつ汎用的なピック・アンド・プレイスの解法について検討する。正確なピック・アンド・プレイスの解法としてシミュレートを提案する。 SimPLEは、オブジェクトCADモデルのみを前提に、オブジェクトの選択、再彫刻、配置を正確に学習する。
論文参考訳（メタデータ） (2023-07-24T21:22:58Z)
Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文参考訳（メタデータ） (2023-06-09T07:22:12Z)
VLMbench: A Compositional Benchmark for Vision-and-Language Manipulation [11.92150014766458]
我々は、人間の指示に従ってオブジェクト操作を行う、最後の1マイルのエンボディエージェントの空白を埋めることを目指している。我々は、視覚・言語操作ベンチマーク(VLMbench)を構築し、分類されたロボット操作タスクに関する様々な言語命令を含む。モジュラールールベースのタスクテンプレートが作成され、言語命令でロボットのデモを自動的に生成する。
論文参考訳（メタデータ） (2022-06-17T03:07:18Z)
V-MAO: Generative Modeling for Multi-Arm Manipulation of Articulated Objects [51.79035249464852]
本稿では,音声による物体のマルチアーム操作を学習するためのフレームワークを提案する。本フレームワークは,各ロボットアームの剛部上の接触点分布を学習する変動生成モデルを含む。
論文参考訳（メタデータ） (2021-11-07T02:31:09Z)
Learning to Regrasp by Learning to Place [19.13976401970985]
ロボットの現在の握りポーズが望ましい操作タスクの実行に失敗する場合、レギュラピングが必要である。本研究では,ロボットが物体と支援環境の部分点雲を入力として取り出し,一連のピック・アンド・プレイス操作を出力するシステムを提案する。我々は,多様な物体を再現することで,73.3%の成功率を達成できることを示す。
論文参考訳（メタデータ） (2021-09-18T03:07:06Z)
Learning Language-Conditioned Robot Behavior from Offline Data and Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文参考訳（メタデータ） (2021-09-02T17:42:13Z)
Predicting Stable Configurations for Semantic Placement of Novel Objects [37.18437299513799]
我々のゴールは、新しい環境における学習された意味的関係に従って、ロボットが未確認の物体を配置できるようにすることである。我々は、未知のオブジェクトのセマンティック配置のための計画アルゴリズムと密に統合するために、モデルとトレーニングをゼロから構築する。提案手法は,RGB-Dセンシングのみによる形状の異なるシーンにおける未知物体のセマンティック・アレンジメントのための動作計画を可能にする。
論文参考訳（メタデータ） (2021-08-26T23:05:05Z)
INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文参考訳（メタデータ） (2021-08-25T07:35:21Z)
NeRP: Neural Rearrangement Planning for Unknown Objects [49.191284597526]
我々は,多段階のニューラルオブジェクト再構成計画のためのディープラーニングに基づくアプローチであるNeRP(Neural Rearrangement Planning)を提案する。 NeRPは、シミュレーションデータに基づいてトレーニングされ、現実世界に一般化される、これまで見たことのないオブジェクトで動作する。
論文参考訳（メタデータ） (2021-06-02T17:56:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。