論文の概要: RDMM: Fine-Tuned LLM Models for On-Device Robotic Decision Making with Enhanced Contextual Awareness in Specific Domains
- arxiv url: http://arxiv.org/abs/2501.16899v1
- Date: Tue, 28 Jan 2025 12:35:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:40:45.047301
- Title: RDMM: Fine-Tuned LLM Models for On-Device Robotic Decision Making with Enhanced Contextual Awareness in Specific Domains
- Title(参考訳): RDMM:特定の領域における文脈認識を増強したオンデバイスロボット決定のための微調整LDMモデル
- Authors: Shady Nasrat, Myungsu Kim, Seonil Lee, Jiho Lee, Yeoncheol Jang, Seung-joon Yi,
- Abstract要約: 本研究では,ドメイン固有のコンテキスト内で意思決定能力を有するRDMM(Robotics Decision-Making Models)を利用したフレームワークを提案する。
実世界の家庭競争の文脈における我々の枠組みの能力について紹介する。
- 参考スコア(独自算出の注目度): 2.3200138841668907
- License:
- Abstract: Large language models (LLMs) represent a significant advancement in integrating physical robots with AI-driven systems. We showcase the capabilities of our framework within the context of the real-world household competition. This research introduces a framework that utilizes RDMM (Robotics Decision-Making Models), which possess the capacity for decision-making within domain-specific contexts, as well as an awareness of their personal knowledge and capabilities. The framework leverages information to enhance the autonomous decision-making of the system. In contrast to other approaches, our focus is on real-time, on-device solutions, successfully operating on hardware with as little as 8GB of memory. Our framework incorporates visual perception models equipping robots with understanding of their environment. Additionally, the framework has integrated real-time speech recognition capabilities, thus enhancing the human-robot interaction experience. Experimental results demonstrate that the RDMM framework can plan with an 93\% accuracy. Furthermore, we introduce a new dataset consisting of 27k planning instances, as well as 1.3k text-image annotated samples derived from the competition. The framework, benchmarks, datasets, and models developed in this work are publicly available on our GitHub repository at https://github.com/shadynasrat/RDMM.
- Abstract(参考訳): 大規模言語モデル(LLM)は、物理ロボットとAI駆動システムの統合において大きな進歩を示している。
実世界の家庭競争の文脈における我々の枠組みの能力について紹介する。
本研究はRDMM(Robotics Decision-Making Models)を利用したフレームワークを提案する。
このフレームワークは情報を活用し、システムの自律的な意思決定を強化する。
他のアプローチとは対照的に、我々はリアルタイムのオンデバイスソリューションに重点を置いており、8GBのメモリでハードウェア上での運用に成功しています。
本フレームワークは,ロボットが環境を理解するための視覚知覚モデルを含む。
さらに、このフレームワークはリアルタイム音声認識機能を統合することで、人間とロボットのインタラクション体験を向上させる。
実験の結果,RDMM フレームワークは 93 % の精度で計画可能であることが示された。
さらに、27kのプランニングインスタンスと、競合から派生した1.3kのテキストイメージアノテートサンプルからなる新しいデータセットを導入する。
この作業で開発されたフレームワーク、ベンチマーク、データセット、モデルはGitHubリポジトリのhttps://github.com/shadynasrat/RDMMで公開されています。
関連論文リスト
- Context-Aware Command Understanding for Tabletop Scenarios [1.7082212774297747]
本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。
音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することにより、ロボットに対して実行可能な指示を抽出する。
システムの長所と短所、特にマルチモーダルコマンド解釈の扱い方について論じる。
論文 参考訳(メタデータ) (2024-10-08T20:46:39Z) - Language Supervised Human Action Recognition with Salient Fusion: Construction Worker Action Recognition as a Use Case [8.26451988845854]
本研究では,人間の行動認識(HAR)に骨格と視覚的手がかりをベースとした新しいアプローチを提案する。
特徴表現を最適化するために,スケルトンモダリティを条件とした言語モデルに対して学習可能なプロンプトを用いる。
建設現場における実世界のロボット応用に適した新しいデータセットを導入し,視覚,骨格,深度データモダリティを特徴とする。
論文 参考訳(メタデータ) (2024-10-02T19:10:23Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [69.01029651113386]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。
ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する
我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文 参考訳(メタデータ) (2024-06-28T08:28:38Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Hybrid ASR for Resource-Constrained Robots: HMM - Deep Learning Fusion [0.0]
本稿では,資源制約型ロボットに特化して設計されたハイブリッド音声認識(ASR)システムを提案する。
提案手法は、隠れマルコフモデル(HMM)とディープラーニングモデルを組み合わせて、ソケットプログラミングを利用して処理タスクを効果的に分散する。
このアーキテクチャでは、HMMベースの処理がロボット内で行われ、別のPCがディープラーニングモデルを処理する。
論文 参考訳(メタデータ) (2023-09-11T15:28:19Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Integrated Benchmarking and Design for Reproducible and Accessible
Evaluation of Robotic Agents [61.36681529571202]
本稿では,開発とベンチマークを統合した再現性ロボット研究の新しい概念について述べる。
このセットアップの中心的なコンポーネントの1つはDuckietown Autolabであり、これは比較的低コストで再現可能な標準化されたセットアップである。
本研究では,インフラを用いて実施した実験の再現性を解析し,ロボットのハードウェアや遠隔実験室間でのばらつきが低いことを示す。
論文 参考訳(メタデータ) (2020-09-09T15:31:29Z) - A Generalizable Knowledge Framework for Semantic Indoor Mapping Based on
Markov Logic Networks and Data Driven MCMC [2.4214518935746185]
データ抽象化のための一般化可能な知識フレームワークを提案する。
これらの抽象的な用語に基づいて、インテリジェントな自律システムは、特定の知識ベースに応じて推論を行うことができるべきである。
本稿では,このフレームワークを特定のタスク,特にセマンティックロボットマッピングに適用する方法を詳細に示す。
論文 参考訳(メタデータ) (2020-02-19T19:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。