論文の概要: ASMR: Augmenting Life Scenario using Large Generative Models for Robotic Action Reflection
- arxiv url: http://arxiv.org/abs/2506.13956v1
- Date: Mon, 16 Jun 2025 19:58:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.225832
- Title: ASMR: Augmenting Life Scenario using Large Generative Models for Robotic Action Reflection
- Title(参考訳): ASMR:ロボット行動反射のための大規模生成モデルを用いた生活シナリオの強化
- Authors: Shang-Chi Tsai, Seiya Kawano, Angel Garcia Contreras, Koichiro Yoshino, Yun-Nung Chen,
- Abstract要約: 本稿では,ロボット支援シナリオにおけるデータ拡張に着目した新しいフレームワークを提案する。
潜在的な会話や環境コンテキストをシミュレートするために、洗練された大きな言語モデルを活用する。
さらに生成されたデータは、最新のマルチモーダルモデルを洗練し、適切なアクションをより正確に決定するのに役立つ。
- 参考スコア(独自算出の注目度): 21.75681306780917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When designing robots to assist in everyday human activities, it is crucial to enhance user requests with visual cues from their surroundings for improved intent understanding. This process is defined as a multimodal classification task. However, gathering a large-scale dataset encompassing both visual and linguistic elements for model training is challenging and time-consuming. To address this issue, our paper introduces a novel framework focusing on data augmentation in robotic assistance scenarios, encompassing both dialogues and related environmental imagery. This approach involves leveraging a sophisticated large language model to simulate potential conversations and environmental contexts, followed by the use of a stable diffusion model to create images depicting these environments. The additionally generated data serves to refine the latest multimodal models, enabling them to more accurately determine appropriate actions in response to user interactions with the limited target data. Our experimental results, based on a dataset collected from real-world scenarios, demonstrate that our methodology significantly enhances the robot's action selection capabilities, achieving the state-of-the-art performance.
- Abstract(参考訳): 日常の人間活動を支援するロボットを設計する際には、周囲からの視覚的手がかりでユーザからの要望を高めることが重要である。
このプロセスはマルチモーダル分類タスクとして定義される。
しかし、モデルトレーニングのための視覚的要素と言語的要素の両方を含む大規模なデータセットの収集は困難であり、時間がかかる。
そこで本研究では,ロボット支援シナリオにおけるデータ拡張に着目し,対話と関連する環境イメージを包含する新しい枠組みを提案する。
このアプローチでは、潜在的な会話や環境コンテキストをシミュレートするために洗練された大規模言語モデルを活用するとともに、これらの環境を表現した画像を作成するために安定した拡散モデルを使用する。
さらに生成されたデータは、最新のマルチモーダルモデルを洗練するのに役立ち、限られたターゲットデータとのユーザインタラクションに対する適切なアクションをより正確に決定することができる。
実世界のシナリオから収集したデータセットに基づいて,本手法がロボットの動作選択能力を著しく向上し,最先端の性能を達成することを実証した。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。