Fugu-MT 論文翻訳(概要): Multi-Scenario Reasoning: Unlocking Cognitive Autonomy in Humanoid Robots for Multimodal Understanding

論文の概要: Multi-Scenario Reasoning: Unlocking Cognitive Autonomy in Humanoid Robots for Multimodal Understanding

arxiv url: http://arxiv.org/abs/2412.20429v1
Date: Sun, 29 Dec 2024 10:46:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.610806
Title: Multi-Scenario Reasoning: Unlocking Cognitive Autonomy in Humanoid Robots for Multimodal Understanding
Title（参考訳）: マルチシナリオ推論:マルチモーダル理解のためのヒューマノイドロボットにおける認知自律性の解き放つ
Authors: Libo Wang,
Abstract要約: 本研究では,この分野でのマルチモーダル理解の技術的欠点を解決するために,多シナリオ推論アーキテクチャを提案する。この結果は、マルチモーダルデータにおけるこのアーキテクチャの実現可能性を示している。動的環境におけるヒューマノイドロボットのクロスモーダルインタラクション戦略の探索のための参照体験を提供する。
参考スコア（独自算出の注目度）: 4.586907225774023
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To improve the cognitive autonomy of humanoid robots, this research proposes a multi-scenario reasoning architecture to solve the technical shortcomings of multi-modal understanding in this field. It draws on simulation based experimental design that adopts multi-modal synthesis (visual, auditory, tactile) and builds a simulator "Maha" to perform the experiment. The findings demonstrate the feasibility of this architecture in multimodal data. It provides reference experience for the exploration of cross-modal interaction strategies for humanoid robots in dynamic environments.
Abstract（参考訳）: 本研究は,ヒューマノイドロボットの認知的自律性を改善するために,この分野でのマルチモーダル理解の技術的欠点を解決するための多シナリオ推論アーキテクチャを提案する。マルチモーダル合成(視覚、聴覚、触覚)を採用したシミュレーションに基づく実験設計に基づいて、実験を行うためのシミュレータ「マハ」を構築する。この結果は、マルチモーダルデータにおけるこのアーキテクチャの実現可能性を示している。動的環境におけるヒューマノイドロボットのクロスモーダルインタラクション戦略の探索のための参照体験を提供する。

関連論文リスト

Whom to Respond To? A Transformer-Based Model for Multi-Party Social Robot Interaction [4.276453870301421]
社会ロボットの意思決定プロセスを改善するために,トランスフォーマーを用いたマルチタスク学習フレームワークを提案する。我々は、視線ずれなどの現実世界の複雑さを捉えた、新しい多人数HRIデータセットを構築した。本研究は,自然とコンテキストを意識した多人数インタラクションを実現できる社会知能型社会ロボットの開発に寄与する。
論文参考訳（メタデータ） (2025-07-15T03:42:14Z)
OminiAdapt: Learning Cross-Task Invariance for Robust and Environment-Aware Robotic Manipulation [1.4719692998274154]
本稿では,ヒューマノイドロボットに適した模倣学習アルゴリズムを提案する。主な課題に焦点をあてて,提案アルゴリズムは環境障害を抑制する。実験の結果,提案手法は様々なタスクシナリオに対して頑健さとスケーラビリティを示すことがわかった。
論文参考訳（メタデータ） (2025-03-27T08:28:22Z)
Redefining Robot Generalization Through Interactive Intelligence [0.0]
ロボットファンデーションモデルは、リアルタイムの人間-ロボット共適応の複雑さを扱うために、インタラクティブなマルチエージェント視点に進化する必要がある、と我々は主張する。シングルエージェントデザインを超えて、私たちの立場は、ロボット工学の基礎モデルがより堅牢でパーソナライズされ、予想されるパフォーマンスのレベルを達成する方法を強調しています。
論文参考訳（メタデータ） (2025-02-09T17:13:27Z)
Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models [81.55156507635286]
脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
論文参考訳（メタデータ） (2024-07-02T21:00:30Z)
Foundations of Multisensory Artificial Intelligence [32.56967614091527]
この論文は、多感覚AIの機械学習基盤を前進させることを目的としている。第1部では,タスクに対する新たな情報を生み出すために,モーダルティが相互にどのように相互作用するかを定式化する理論的枠組みを提案する。第2部では、多くのモダリティやタスクを一般化する実用的なマルチモーダル基礎モデルの設計について検討する。
論文参考訳（メタデータ） (2024-04-29T14:45:28Z)
Large Language Models Need Consultants for Reasoning: Becoming an Expert in a Complex Human System Through Behavior Simulation [5.730580726163518]
大規模言語モデル(LLM)は、数学、法学、コーディング、常識、世界知識といった分野において、人間に匹敵する優れた能力を示してきた。本稿では,生成エージェントによるシミュレーション技術を活用した新たな推論フレームワークであるMosaic Expert Observation Wall' (MEOW)を提案する。
論文参考訳（メタデータ） (2024-03-27T03:33:32Z)
HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation [50.616995671367704]
そこで本研究では,人型ロボットが器用な手を備えた,高次元シミュレーション型ロボット学習ベンチマークHumanoidBenchを提案する。その結果,現在最先端の強化学習アルゴリズムがほとんどのタスクに支障をきたすのに対して,階層的学習アプローチはロバストな低レベルポリシーに支えられた場合,優れた性能を達成できることがわかった。
論文参考訳（メタデータ） (2024-03-15T17:45:44Z)
RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis [102.1876259853457]
汎用ロボット行動合成のための木構造多モードコード生成フレームワークRoboCodeXを提案する。 RoboCodeXは、高レベルの人間の命令を複数のオブジェクト中心の操作ユニットに分解する。概念的および知覚的理解を制御コマンドにマッピングする能力をさらに強化するため、事前学習のための特別なマルチモーダル推論データセットを収集し、教師付き微調整のための反復的自己更新手法を導入する。
論文参考訳（メタデータ） (2024-02-25T15:31:43Z)
Learning Human-to-Robot Handovers from Point Clouds [63.18127198174958]
視覚に基づく人間ロボットハンドオーバの制御ポリシーを学習する最初のフレームワークを提案する。シミュレーションベンチマーク,sim-to-sim転送,sim-to-real転送において,ベースラインよりも大きな性能向上を示した。
論文参考訳（メタデータ） (2023-03-30T17:58:36Z)
HERD: Continuous Human-to-Robot Evolution for Learning from Human Demonstration [57.045140028275036]
本研究では,マイクロ進化的強化学習を用いて,操作スキルを人間からロボットに伝達可能であることを示す。本稿では,ロボットの進化経路とポリシーを協調的に最適化する多次元進化経路探索アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-08T15:56:13Z)
Learning body models: from humans to humanoids [2.855485723554975]
人間と動物は、複数の感覚のモダリティからの情報を組み合わせて、複雑な体を制御し、成長、失敗、ツールの使用に適応する。鍵となる基礎は、エージェント(人間、動物、ロボット)が開発してきた身体の内部表現である。脳内での体モデルの操作のメカニズムは、ほとんど不明であり、出生後の経験からどのように構築されているかは、あまり分かっていない。
論文参考訳（メタデータ） (2022-11-06T07:30:01Z)
Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文参考訳（メタデータ） (2022-08-17T12:36:26Z)
DIME: Fine-grained Interpretations of Multimodal Models via Disentangled Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文参考訳（メタデータ） (2022-03-03T20:52:47Z)
Sensorimotor representation learning for an "active self" in robots: A model survey [10.649413494649293]
人間では、これらの能力は宇宙で私たちの身体を知覚する能力と関連していると考えられている。本稿では,これらの能力の発達過程について概説する。人工エージェントにおける自己感覚の出現を可能にする理論計算フレームワークを提案する。
論文参考訳（メタデータ） (2020-11-25T16:31:01Z)
ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation [75.0278287071591]
ThreeDWorld (TDW) はインタラクティブなマルチモーダル物理シミュレーションのためのプラットフォームである。 TDWは、リッチな3D環境において、高忠実な感覚データのシミュレーションと、移動体エージェントとオブジェクト間の物理的相互作用を可能にする。我々は、コンピュータビジョン、機械学習、認知科学における新たな研究方向において、TDWによって実現された初期実験を提示する。
論文参考訳（メタデータ） (2020-07-09T17:33:27Z)
RoboTHOR: An Open Simulation-to-Real Embodied AI Platform [56.50243383294621]
インタラクティブで具体化された視覚AIの研究を民主化するためにRoboTHORを導入する。シミュレーションで訓練されたモデルの性能は,シミュレーションと慎重に構築された物理アナログの両方で試験される場合,大きな差があることが示される。
論文参考訳（メタデータ） (2020-04-14T20:52:49Z)
SAPIEN: A SimulAted Part-based Interactive ENvironment [77.4739790629284]
SAPIENは現実的で物理に富んだシミュレートされた環境であり、音声オブジェクトのための大規模なセットをホストしている。部品検出と動作特性認識のための最先端の視覚アルゴリズムの評価を行い,ロボットインタラクションタスクの実証を行った。
論文参考訳（メタデータ） (2020-03-19T00:11:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。