Fugu-MT 論文翻訳(概要): VLMbench: A Compositional Benchmark for Vision-and-Language Manipulation

論文の概要: VLMbench: A Compositional Benchmark for Vision-and-Language Manipulation

arxiv url: http://arxiv.org/abs/2206.08522v1
Date: Fri, 17 Jun 2022 03:07:18 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-21 04:44:13.683940
Title: VLMbench: A Compositional Benchmark for Vision-and-Language Manipulation
Title（参考訳）: VLMbench: 視覚と言語操作のためのコンポジションベンチマーク
Authors: Kaizhi Zheng, Xiaotong Chen, Odest Chadwicke Jenkins, Xin Eric Wang
Abstract要約: 我々は、人間の指示に従ってオブジェクト操作を行う、最後の1マイルのエンボディエージェントの空白を埋めることを目指している。我々は、視覚・言語操作ベンチマーク(VLMbench)を構築し、分類されたロボット操作タスクに関する様々な言語命令を含む。モジュラールールベースのタスクテンプレートが作成され、言語命令でロボットのデモを自動的に生成する。
参考スコア（独自算出の注目度）: 11.92150014766458
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Benefiting from language flexibility and compositionality, humans naturally intend to use language to command an embodied agent for complex tasks such as navigation and object manipulation. In this work, we aim to fill the blank of the last mile of embodied agents -- object manipulation by following human guidance, e.g., "move the red mug next to the box while keeping it upright." To this end, we introduce an Automatic Manipulation Solver (AMSolver) simulator and build a Vision-and-Language Manipulation benchmark (VLMbench) based on it, containing various language instructions on categorized robotic manipulation tasks. Specifically, modular rule-based task templates are created to automatically generate robot demonstrations with language instructions, consisting of diverse object shapes and appearances, action types, and motion constraints. We also develop a keypoint-based model 6D-CLIPort to deal with multi-view observations and language input and output a sequence of 6 degrees of freedom (DoF) actions. We hope the new simulator and benchmark will facilitate future research on language-guided robotic manipulation.
Abstract（参考訳）: 言語柔軟性と構成性から恩恵を受けるため、人間は自然に言語を使ってナビゲーションやオブジェクト操作といった複雑なタスクに実施エージェントを命令する。本研究は,「箱の横にある赤いマグカップを直立させながら移動させる」など,人間の指示に従ってオブジェクト操作を行う,組立エージェントの最後の1マイルの空白を埋めることを目的としている。この目的のために,自動操作ソルバ(amsolver)シミュレータを導入し,ロボット操作タスクに様々な言語指示を含む視覚言語操作ベンチマーク(vlmbench)を構築する。具体的には、モジュール型ルールベースのタスクテンプレートを作成し、さまざまなオブジェクトの形状と外観、アクションタイプ、動作制約からなる言語命令によるロボットデモを自動的に生成する。また、多視点観測と言語入力を扱うキーポイントベースモデル6D-CLIPortを開発し、6自由度(DoF)動作のシーケンスを出力する。新しいシミュレータとベンチマークにより、言語誘導型ロボット操作の今後の研究が促進されることを願っている。

関連論文リスト

Improving Generalization of Language-Conditioned Robot Manipulation [29.405161073483175]
いくつかの実演からオブジェクトアレンジメントタスクを学習するフレームワークを提案する。シミュレーション環境と実世界のロボット環境の両方において,本手法の有効性を検証した。
論文参考訳（メタデータ） (2025-08-04T13:29:26Z)
OpenNav: Open-World Navigation with Multimodal Large Language Models [8.41361699991122]
大型言語モデル(LLM)は強力な常識推論能力を示しており、ロボットナビゲーションと計画タスクを約束している。ロボットが複雑な言語命令を解釈して分解し、最終的には一連の軌跡を合成して、多様なナビゲーションタスクを完備化することを目指している。室内および屋外の両方のシーンにおいて,ハスキーロボットを用いたシステムの有効性を検証し,実世界のロバスト性と適用性を示す。
論文参考訳（メタデータ） (2025-07-24T02:05:28Z)
LIAM: Multimodal Transformer for Language Instructions, Images, Actions and Semantic Maps [18.602777449136738]
言語,イメージ,アクション,マップの入力に基づいて,アクションの書き起こしを予測するエンド・ツー・エンドのモデルであるLIAMを提案する。国内タスクのシミュレータ生成ベンチマークであるALFREDデータセットを用いて,本手法の評価を行った。
論文参考訳（メタデータ） (2025-03-15T18:54:06Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
Object-Centric Instruction Augmentation for Robotic Manipulation [29.491990994901666]
我々は,高度にセマンティックで情報に富んだ言語命令を位置情報で拡張するために,textitObject-Centric Instruction Augmentation (OCI)フレームワークを導入する。 MLLM(Multi-modal Large Language Model)を用いて,オブジェクト位置の知識を自然言語に織り込む。我々は,ロボットマニピュレータの模倣政策が,従来の言語指導にのみ依存する者よりも優れていることを実証した。
論文参考訳（メタデータ） (2024-01-05T13:54:45Z)
WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文参考訳（メタデータ） (2023-08-30T11:35:21Z)
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文参考訳（メタデータ） (2023-07-28T21:18:02Z)
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文参考訳（メタデータ） (2023-07-12T07:40:48Z)
LARG, Language-based Automatic Reward and Goal Generation [8.404316955848602]
テキストベースのタスク記述をそれに対応する報酬とゴール生成関数に変換するアプローチを開発する。ロボット操作に対する我々のアプローチを評価し、スケーラブルな方法でポリシーを訓練および実行できることを実証する。
論文参考訳（メタデータ） (2023-06-19T14:52:39Z)
Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文参考訳（メタデータ） (2023-05-18T17:59:49Z)
PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。 562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文参考訳（メタデータ） (2023-03-06T18:58:06Z)
Language-Driven Representation Learning for Robotics [115.93273609767145]
ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
論文参考訳（メタデータ） (2023-02-24T17:29:31Z)
Learning Flexible Translation between Robot Actions and Language Descriptions [16.538887534958555]
本稿では,ロボット動作と言語記述とのフレキシブルな変換のためのペアゲートオートエンコーダ(PGAE)を提案する。我々は、各アクションを、翻訳方向に関する信号を含む適切な記述とペアリングすることで、エンド・ツー・エンドでモデルを訓練する。事前訓練された言語モデルを言語エンコーダとして使用するオプションにより、我々のモデルは目に見えない自然言語入力を認識することができる。
論文参考訳（メタデータ） (2022-07-15T12:37:05Z)
Language Model-Based Paired Variational Autoencoders for Robotic Language Learning [18.851256771007748]
人間の幼児と同様、人工エージェントは環境と対話しながら言語を学ぶことができる。本稿では,ロボットの動作と言語記述を双方向に結合するニューラルモデルを提案する。次に, PVAE-BERTを導入し, 事前訓練された大規模言語モデルとモデルを同調する。
論文参考訳（メタデータ） (2022-01-17T10:05:26Z)
Learning Language-Conditioned Robot Behavior from Offline Data and Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文参考訳（メタデータ） (2021-09-02T17:42:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。