論文の概要: Bootstrapping Human-Like Planning via LLMs
- arxiv url: http://arxiv.org/abs/2506.22604v1
- Date: Fri, 27 Jun 2025 20:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.481356
- Title: Bootstrapping Human-Like Planning via LLMs
- Title(参考訳): LLMによるヒューマンライクな計画のブートストラップ
- Authors: David Porfirio, Vincent Hsiao, Morgan Fine-Morris, Leslie Smith, Laura M. Hiatt,
- Abstract要約: 2つの共通エンドユーザープログラミングパラダイムには、ドラッグ・アンド・ドロップインタフェースと自然言語プログラミングがある。
我々は,自然言語を入力として受け入れる大規模言語モデル (LLM) ベースのパイプラインを構築し,人間の動作シーケンスを出力として生成する。
以上の結果から,人間の行動系列の生成において,より大型のモデルの方が,より小型のモデルよりも優れていることが示されたが,それにもかかわらず,より小型のモデルでは良好な性能が得られている。
- 参考スコア(独自算出の注目度): 0.873811641236639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robot end users increasingly require accessible means of specifying tasks for robots to perform. Two common end-user programming paradigms include drag-and-drop interfaces and natural language programming. Although natural language interfaces harness an intuitive form of human communication, drag-and-drop interfaces enable users to meticulously and precisely dictate the key actions of the robot's task. In this paper, we investigate the degree to which both approaches can be combined. Specifically, we construct a large language model (LLM)-based pipeline that accepts natural language as input and produces human-like action sequences as output, specified at a level of granularity that a human would produce. We then compare these generated action sequences to another dataset of hand-specified action sequences. Although our results reveal that larger models tend to outperform smaller ones in the production of human-like action sequences, smaller models nonetheless achieve satisfactory performance.
- Abstract(参考訳): ロボットのエンドユーザーは、ロボットが実行するタスクを特定するためのアクセス可能な手段がますます必要になる。
2つの共通エンドユーザープログラミングパラダイムには、ドラッグ・アンド・ドロップインタフェースと自然言語プログラミングがある。
自然言語インタフェースは人間のコミュニケーションの直感的な形態を用いるが、ドラッグアンドドロップインタフェースによってユーザーはロボットのタスクの重要な動作を慎重に正確に正確に判断することができる。
本稿では,両アプローチが組み合わさる程度について検討する。
具体的には,自然言語を入力として受け入れる大規模言語モデル (LLM) ベースのパイプラインを構築し,人間が生成する粒度のレベルで指定した,人間の様のアクションシーケンスを出力として生成する。
次に、これらの生成されたアクションシーケンスを、手特定されたアクションシーケンスの別のデータセットと比較する。
以上の結果から,人間の行動系列の生成において,より大型のモデルの方が,より小型のモデルよりも優れていることが示されたが,それにもかかわらず,より小型のモデルでは良好な性能が得られている。
関連論文リスト
- Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models [49.4824734958566]
カオス・オブ・モダリティ(CoM)は、ビジョン言語モデルがマルチモーダルな人間の実演データを推論することを可能にする。
CoMはタスクプランを洗練し、詳細な制御パラメータを生成し、ロボットは単一のマルチモーダルなヒューマンビデオプロンプトに基づいて操作タスクを実行できる。
論文 参考訳(メタデータ) (2025-04-17T21:31:23Z) - Towards Generalizable Zero-Shot Manipulation via Translating Human
Interaction Plans [58.27029676638521]
我々は、人間の受動的ビデオが、そのようなジェネラリストロボットを学習するための豊富なデータ源であることを示す。
我々は、シーンの現在の画像とゴール画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。
学習システムは、40個のオブジェクトに一般化する16以上の操作スキルを実現できることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:54:12Z) - Proactive Human-Robot Interaction using Visuo-Lingual Transformers [0.0]
人間は人間の相互作用を通して文脈を推測するために、潜伏したビスオ・言語的手がかりを抽出する能力を持っている。
本研究では,シーンからの視覚的手がかり,ユーザからの言語コマンド,事前オブジェクト間相互作用の知識を用いて,ユーザが達成しようとしている目標を積極的に予測する学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-04T00:50:21Z) - Incremental Learning of Humanoid Robot Behavior from Natural Interaction and Large Language Models [23.945922720555146]
本研究では,自然相互作用から複雑な行動の漸進的な学習を実現するシステムを提案する。
本システムは,ヒューマノイドロボットARMAR-6のロボット認知アーキテクチャに組み込まれている。
論文 参考訳(メタデータ) (2023-09-08T13:29:05Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。
特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。
RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-11T16:28:25Z) - Can Foundation Models Perform Zero-Shot Task Specification For Robot
Manipulation? [54.442692221567796]
タスク仕様は、熟練していないエンドユーザの関与とパーソナライズされたロボットの採用に不可欠である。
タスク仕様に対する広く研究されているアプローチは、目標を通じて、コンパクトな状態ベクトルまたは同じロボットシーンのゴールイメージを使用することである。
そこで本研究では,人間の指定や使用が容易な目標仕様の代替的,より汎用的な形式について検討する。
論文 参考訳(メタデータ) (2022-04-23T19:39:49Z) - Reshaping Robot Trajectories Using Natural Language Commands: A Study of
Multi-Modal Data Alignment Using Transformers [33.7939079214046]
我々は、人間とロボットのコラボレーションのための柔軟な言語ベースのインタフェースを提供する。
我々は、ユーザコマンドをエンコードする大規模言語モデルの分野における最近の進歩を生かしている。
言語コマンドによって修正されたロボット軌跡を含むデータセット上で、模倣学習を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-25T01:36:56Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。