Fugu-MT 論文翻訳(概要): Toward Grounded Social Reasoning

論文の概要: Toward Grounded Social Reasoning

arxiv url: http://arxiv.org/abs/2306.08651v1
Date: Wed, 14 Jun 2023 17:30:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-16 18:01:53.939045
Title: Toward Grounded Social Reasoning
Title（参考訳）: 接地型社会推論に向けて
Authors: Minae Kwon, Hengyuan Hu, Vivek Myers, Siddharth Karamcheti, Anca Dragan, Dorsa Sadigh
Abstract要約: 本研究では,LLMと視覚言語モデル(VLM)を利用して,ロボットが環境を積極的に認識し,社会的推論を行うためのアプローチを提案する。私たちは、クリーニングが必要な70の現実世界のサーフェスのイメージを含むMessySurfacesデータセットをリリースしました。 MessySurfacesベンチマークでは平均12.9%の改善が見られ、ベースラインよりも平均15%改善が見られた。
参考スコア（独自算出の注目度）: 21.415517721128346
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Consider a robot tasked with tidying a desk with a meticulously constructed Lego sports car. A human may recognize that it is not socially appropriate to disassemble the sports car and put it away as part of the "tidying". How can a robot reach that conclusion? Although large language models (LLMs) have recently been used to enable social reasoning, grounding this reasoning in the real world has been challenging. To reason in the real world, robots must go beyond passively querying LLMs and *actively gather information from the environment* that is required to make the right decision. For instance, after detecting that there is an occluded car, the robot may need to actively perceive the car to know whether it is an advanced model car made out of Legos or a toy car built by a toddler. We propose an approach that leverages an LLM and vision language model (VLM) to help a robot actively perceive its environment to perform grounded social reasoning. To evaluate our framework at scale, we release the MessySurfaces dataset which contains images of 70 real-world surfaces that need to be cleaned. We additionally illustrate our approach with a robot on 2 carefully designed surfaces. We find an average 12.9% improvement on the MessySurfaces benchmark and an average 15% improvement on the robot experiments over baselines that do not use active perception. The dataset, code, and videos of our approach can be found at https://minaek.github.io/groundedsocialreasoning.
Abstract（参考訳）: レゴのスポーツカーでデスクを丁寧に組み立てるロボットを考えてみてほしい。人間はスポーツカーの分解が社会的に適切でないと認識し、「タイダイイング」の一部として取り除くことができる。ロボットはどうやってその結論に達するのか? 大規模言語モデル (LLMs) は近年, 社会的推論に利用されてきたが, 現実の世界でのこの推論は困難である。現実の世界では、ロボットは受動的にLLMに問い合わせるだけでなく、正しい判断を下すために必要な環境*から情報を積極的に収集する必要がある。例えば、隠された車があることを検知したロボットは、レゴ製の高度なモデルカーなのか、幼児が作ったおもちゃの車なのかを積極的に認識する必要があるかもしれない。 llmと視覚言語モデル(vlm)を活用して,ロボットがその環境を積極的に認識し,基盤的社会的推論を行うためのアプローチを提案する。当社のフレームワークを大規模に評価するために,クリーニングが必要な70の現実世界の面の画像を含むMessySurfacesデータセットをリリースしました。さらに,2つの表面を注意深く設計したロボットによるアプローチについても紹介する。我々は、メッシーサーフェースベンチマークの平均12.9%の改善と、アクティブな知覚を使用しないベースラインに対するロボット実験の平均15%の改善を見出した。私たちのアプローチのデータセット、コード、ビデオは、https://minaek.github.io/groundedsocialreasoningで見ることができます。

関連論文リスト

Dexterity from Smart Lenses: Multi-Fingered Robot Manipulation with In-the-Wild Human Demonstrations [52.29884993824894]
自然環境で日々のタスクを行う人間から、マルチフィンガーロボットポリシーを学ぶことは、ロボットコミュニティにとって長年の大きな目標だった。 AINAは、Aria Gen 2メガネを使用して、どこでも、どこでも、あらゆる環境で収集されたデータから、マルチフィンガーポリシーを学ぶことができる。
論文参考訳（メタデータ） (2025-11-20T18:59:02Z)
EgoZero: Robot Learning from Smart Glasses [54.6168258133554]
EgoZeroはProject Ariaスマートグラスで捉えた人間のデモから堅牢な操作ポリシーを学ぶ。 EgoZeroのポリシーをFranka Pandaロボットにデプロイし、7つの操作タスクに対して70%の成功率でゼロショット転送を実演する。この結果から,実世界におけるロボット学習のためのスケーラブルな基盤として,現在地にある人間のデータを活用できることが示唆された。
論文参考訳（メタデータ） (2025-05-26T17:59:17Z)
Know your limits! Optimize the robot's behavior through self-awareness [11.021217430606042]
最近の人間ロボット模倣アルゴリズムは、高精度な人間の動きを追従することに焦点を当てている。本稿では,ロボットが参照を模倣する際の動作を予測できるディープラーニングモデルを提案する。我々のSAW(Self-AWare Model)は、転倒確率、基準運動への固執、滑らかさといった様々な基準に基づいて、潜在的なロボットの挙動をランク付けする。
論文参考訳（メタデータ） (2024-09-16T14:14:58Z)
RoboPoint: A Vision-Language Model for Spatial Affordance Prediction for Robotics [46.63773228934993]
本稿では,ロボットドメインやニーズに対して,視覚言語モデル(VLM)を命令チューニングする,自動合成データ生成パイプラインを提案する。パイプラインを使用して、与えられた言語命令に対する画像キーポイントの価格を予測するVLMであるRoboPointを訓練する。実験の結果,RoboPointは空間空き量の予測精度が21.8%,下流タスクの成功率が30.5%,最先端VLMが21.8%向上していることがわかった。
論文参考訳（メタデータ） (2024-06-15T19:22:51Z)
WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文参考訳（メタデータ） (2023-08-30T11:35:21Z)
HomeRobot: Open-Vocabulary Mobile Manipulation [107.05702777141178]
Open-Vocabulary Mobile Manipulation (OVMM) は、目に見えない環境で任意のオブジェクトを選択し、命令された場所に配置する問題である。 HomeRobotには2つのコンポーネントがある。シミュレーションコンポーネントは、新しい高品質のマルチルームホーム環境に、大規模で多様なキュレートされたオブジェクトセットを使用する。
論文参考訳（メタデータ） (2023-06-20T14:30:32Z)
Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文参考訳（メタデータ） (2023-06-16T17:58:10Z)
Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文参考訳（メタデータ） (2023-04-17T17:59:34Z)
Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文参考訳（メタデータ） (2023-03-02T18:51:38Z)
Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文参考訳（メタデータ） (2023-03-02T01:55:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。