Fugu-MT 論文翻訳(概要): Multi-modal perception for soft robotic interactions using generative models

論文の概要: Multi-modal perception for soft robotic interactions using generative models

arxiv url: http://arxiv.org/abs/2404.04220v1
Date: Fri, 5 Apr 2024 17:06:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-08 15:35:54.841418
Title: Multi-modal perception for soft robotic interactions using generative models
Title（参考訳）: 生成モデルを用いたソフトロボットインタラクションのためのマルチモーダル認識
Authors: Enrico Donato, Egidio Falotico, Thomas George Thuruthel,
Abstract要約: 知覚は、物理的エージェントと外部環境との活発な相互作用に不可欠である。触覚や視覚などの複数の感覚モダリティの統合により、このプロセスが強化される。本稿では,多種多様なモダリティからのデータを調和させて全体的状態表現を構築する知覚モデルを提案する。
参考スコア（独自算出の注目度）: 2.4100803794273
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Perception is essential for the active interaction of physical agents with the external environment. The integration of multiple sensory modalities, such as touch and vision, enhances this perceptual process, creating a more comprehensive and robust understanding of the world. Such fusion is particularly useful for highly deformable bodies such as soft robots. Developing a compact, yet comprehensive state representation from multi-sensory inputs can pave the way for the development of complex control strategies. This paper introduces a perception model that harmonizes data from diverse modalities to build a holistic state representation and assimilate essential information. The model relies on the causality between sensory input and robotic actions, employing a generative model to efficiently compress fused information and predict the next observation. We present, for the first time, a study on how touch can be predicted from vision and proprioception on soft robots, the importance of the cross-modal generation and why this is essential for soft robotic interactions in unstructured environments.
Abstract（参考訳）: 知覚は、物理的エージェントと外部環境との活発な相互作用に不可欠である。触覚や視覚などの複数の感覚モダリティの統合は、この知覚的プロセスを強化し、より包括的で堅牢な世界理解を生み出す。このような融合はソフトロボットのような高度に変形可能な物体に特に有用である。多感覚入力からコンパクトで包括的状態表現を開発することは、複雑な制御戦略を開発するための道を開くことができる。本稿では,多様なモダリティからのデータを調和させて,全体的状態表現を構築し,本質的な情報を同化させる知覚モデルを提案する。このモデルは感覚入力とロボット動作の因果関係に依存しており、融合した情報を効率的に圧縮し、次の観測を予測するための生成モデルを用いている。本研究は,ソフトロボットの視覚と受容からタッチがどのように予測されるか,クロスモーダル・ジェネレーションの重要性,非構造環境におけるソフト・ロボティクスの相互作用に欠かせない理由を初めて提示する。

関連論文リスト

Humanoid Occupancy: Enabling A Generalized Multimodal Occupancy Perception System on Humanoid Robots [50.0783429451902]
ヒューマノイドロボット技術は急速に進歩しており、メーカーは特定のシナリオに合わせて様々な視覚認識モジュールを導入している。総合的な環境理解に不可欠なリッチなセマンティック情報と3D幾何学情報の両方を提供するため、占有率に基づく表現はヒューマノイドロボットに特に適していると広く認識されている。本稿では,ハードウェアとソフトウェアコンポーネントを統合した汎用マルチモーダル占有認識システムであるHumanoid Occupancy,データ取得装置,専用のアノテーションパイプラインを提案する。
論文参考訳（メタデータ） (2025-07-27T10:47:00Z)
Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文参考訳（メタデータ） (2025-06-27T18:09:49Z)
Enhancing Explainability with Multimodal Context Representations for Smarter Robots [0.0]
人間とロボットのインタラクションの鍵となる問題は、ロボットが音声や視覚などのマルチモーダル入力を効果的に知覚し、推論できるようにすることである。本稿では,言語と視覚の融合を改善するために,コンテキスト表現のための汎用的で説明可能なマルチモーダルフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-28T13:36:47Z)
Redefining Robot Generalization Through Interactive Intelligence [0.0]
ロボットファンデーションモデルは、リアルタイムの人間-ロボット共適応の複雑さを扱うために、インタラクティブなマルチエージェント視点に進化する必要がある、と我々は主張する。シングルエージェントデザインを超えて、私たちの立場は、ロボット工学の基礎モデルがより堅牢でパーソナライズされ、予想されるパフォーマンスのレベルを達成する方法を強調しています。
論文参考訳（メタデータ） (2025-02-09T17:13:27Z)
Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding [85.63710017456792]
FuSeは、不均一なセンサのモダリティに対する微調整型ビズモータ一般政策を可能にする新しいアプローチである。 FuSeは視覚,触覚,音などのモーダル性に対して共同で推論を必要とする挑戦的なタスクを実行できることを示す。実世界での実験では、FuSeisはすべての基準ラインと比較して成功率を20%以上引き上げることができた。
論文参考訳（メタデータ） (2025-01-08T18:57:33Z)
DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。 DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-08-09T14:04:21Z)
Towards Interpretable Visuo-Tactile Predictive Models for Soft Robot Interactions [2.4100803794273]
ロボットエージェントの現実の状況への統合は、知覚能力に依存している。我々は、周囲を探索するために、様々な感覚モダリティの融合の上に構築する。生の感覚モダリティに応用されたディープラーニングは、実行可能な選択肢を提供する。我々は、知覚モデルとその制御目的への含意の展望を掘り下げる。
論文参考訳（メタデータ） (2024-07-16T21:46:04Z)
RoboPack: Learning Tactile-Informed Dynamics Models for Dense Packing [38.97168020979433]
本稿では, 視覚と触覚を組み合わせ, 触覚インフォームド・ダイナミックスモデルを学習することでロボット操作を実現するアプローチを提案する。提案するフレームワークであるRoboPackは、オブジェクト状態を推定するために、リカレントグラフニューラルネットワークを使用している。我々は,非包括的操作と密包装作業に対するソフトバブル触覚センサを備えた実ロボットへのアプローチを実証する。
論文参考訳（メタデータ） (2024-07-01T16:08:37Z)
Foundations of Multisensory Artificial Intelligence [32.56967614091527]
この論文は、多感覚AIの機械学習基盤を前進させることを目的としている。第1部では,タスクに対する新たな情報を生み出すために,モーダルティが相互にどのように相互作用するかを定式化する理論的枠組みを提案する。第2部では、多くのモダリティやタスクを一般化する実用的なマルチモーダル基礎モデルの設計について検討する。
論文参考訳（メタデータ） (2024-04-29T14:45:28Z)
Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文参考訳（メタデータ） (2024-01-07T19:11:18Z)
Data-driven emotional body language generation for social robotics [58.88028813371423]
社会ロボティクスでは、人間型ロボットに感情の身体的表現を生成する能力を与えることで、人間とロボットの相互作用とコラボレーションを改善することができる。我々は、手作業で設計されたいくつかの身体表現から学習する深層学習データ駆動フレームワークを実装した。評価実験の結果, 生成した表現の人間同型とアニマシーは手作りの表現と異なる認識が得られなかった。
論文参考訳（メタデータ） (2022-05-02T09:21:39Z)
Multi-Robot Collaborative Perception with Graph Neural Networks [6.383576104583731]
汎用グラフニューラルネットワーク(GNN)を提案する。提案手法は,単眼深度推定やセマンティックセグメンテーションなどの多視点視覚認識問題に対処できることを示す。
論文参考訳（メタデータ） (2022-01-05T18:47:07Z)
Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文参考訳（メタデータ） (2021-09-09T16:04:14Z)
Elastic Tactile Simulation Towards Tactile-Visual Perception [58.44106915440858]
触覚シミュレーションのための粒子の弾性相互作用(EIP)を提案する。 EIPは、触覚センサを協調粒子群としてモデル化し、接触時の粒子の変形を制御するために弾性特性を適用した。さらに,触覚データと視覚画像間の情報融合を可能にする触覚知覚ネットワークを提案する。
論文参考訳（メタデータ） (2021-08-11T03:49:59Z)
Cognitive architecture aided by working-memory for self-supervised multi-modal humans recognition [54.749127627191655]
人間パートナーを認識する能力は、パーソナライズされた長期的な人間とロボットの相互作用を構築するための重要な社会的スキルです。ディープラーニングネットワークは最先端の結果を達成し,そのような課題に対処するための適切なツールであることが実証された。 1つの解決策は、ロボットに自己スーパービジョンで直接の感覚データから学習させることである。
論文参考訳（メタデータ） (2021-03-16T13:50:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。