論文の概要: Large Language Model-empowered multimodal strain sensory system for shape recognition, monitoring, and human interaction of tensegrity
- arxiv url: http://arxiv.org/abs/2406.10264v1
- Date: Tue, 11 Jun 2024 06:26:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 01:31:17.283859
- Title: Large Language Model-empowered multimodal strain sensory system for shape recognition, monitoring, and human interaction of tensegrity
- Title(参考訳): 大規模言語モデルを用いたマルチモーダルひずみセンサシステムによる引張の形状認識・モニタリング・ヒューマンインタラクション
- Authors: Zebing Mao, Ryota Kobayashi, Hiroyuki Nabae, Koichi Suzumori,
- Abstract要約: 緊張に基づくシステムは、不均一で予測不可能な環境を動的に探索する上で有望なアプローチである。
本稿では,深層学習モデルと大規模言語モデルの両方を活用することで,24個のマルチモーダルひずみセンサと6本のストラット張力積分を導入する。
この緊張感は、自動でiPhoneにデータを送信してワイヤレス監視し、データ分析、説明、予測、提案を人間に提供する。
- 参考スコア(独自算出の注目度): 2.323663950503941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A tensegrity-based system is a promising approach for dynamic exploration of uneven and unpredictable environments, particularly, space exploration. However, implementing such systems presents challenges in terms of intelligent aspects: state recognition, wireless monitoring, human interaction, and smart analyzing and advising function. Here, we introduce a 6-strut tensegrity integrate with 24 multimodal strain sensors by leveraging both deep learning model and large language models to realize smart tensegrity. Using conductive flexible tendons assisted by long short-term memory model, the tensegrity achieves the self-shape reconstruction without extern sensors. Through integrating the flask server and gpt-3.5-turbo model, the tensegrity autonomously enables to send data to iPhone for wireless monitoring and provides data analysis, explanation, prediction, and suggestions to human for decision making. Finally, human interaction system of the tensegrity helps human obtain necessary information of tensegrity from the aspect of human language. Overall, this intelligent tensegrity-based system with self-sensing tendons showcases potential for future exploration, making it a versatile tool for real-world applications.
- Abstract(参考訳): 引張に基づくシステムは、不均一で予測不可能な環境、特に宇宙探査を動的に探索する上で有望なアプローチである。
しかし、このようなシステムの実装は、状態認識、無線監視、ヒューマンインタラクション、スマート分析とアドバイス機能といった知的側面の観点からの課題を提示している。
本稿では,深層学習モデルと大規模言語モデルの両方を活用することで,24個のマルチモーダルひずみセンサと6本のストラット張力積分を導入することにより,スマートな張力を実現する。
長期記憶モデルによって補助される導電性フレキシブル腱を用いて、伸縮性は外部センサを使わずに自己形状の再構成を実現する。
フレスコサーバとgpt-3.5-turboモデルを統合することで、緊張度は自動でiPhoneにデータを送信してワイヤレス監視を可能にし、意思決定のためにデータ分析、説明、予測、提案を提供する。
最後に、テングレティの人間間相互作用システムは、人間の言語的側面からテングレティの必要な情報を得るのに役立つ。
全体として、このインテリジェントな緊張感に基づくシステムは、未来の探索の可能性を示しており、現実世界のアプリケーションに汎用的なツールとなっている。
関連論文リスト
- Graph-Based Multi-Modal Sensor Fusion for Autonomous Driving [3.770103075126785]
本稿では,グラフに基づく状態表現の開発に焦点をあてた,マルチモーダルセンサ融合に対する新しいアプローチを提案する。
本稿では,マルチモーダルグラフを融合する最初のオンライン状態推定手法であるSensor-Agnostic Graph-Aware Kalman Filterを提案する。
提案手法の有効性を,合成および実世界の運転データセットを用いた広範囲な実験により検証した。
論文 参考訳(メタデータ) (2024-11-06T06:58:17Z) - Towards Interpretable Visuo-Tactile Predictive Models for Soft Robot Interactions [2.4100803794273]
ロボットエージェントの現実の状況への統合は、知覚能力に依存している。
我々は、周囲を探索するために、様々な感覚モダリティの融合の上に構築する。
生の感覚モダリティに応用されたディープラーニングは、実行可能な選択肢を提供する。
我々は、知覚モデルとその制御目的への含意の展望を掘り下げる。
論文 参考訳(メタデータ) (2024-07-16T21:46:04Z) - Multi-modal perception for soft robotic interactions using generative models [2.4100803794273]
知覚は、物理的エージェントと外部環境との活発な相互作用に不可欠である。
触覚や視覚などの複数の感覚モダリティの統合により、このプロセスが強化される。
本稿では,多種多様なモダリティからのデータを調和させて全体的状態表現を構築する知覚モデルを提案する。
論文 参考訳(メタデータ) (2024-04-05T17:06:03Z) - LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。
このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。
本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文 参考訳(メタデータ) (2024-04-03T23:57:34Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - MultiIoT: Benchmarking Machine Learning for the Internet of Things [70.74131118309967]
次世代の機械学習システムは、物理的世界に対する知覚と相互作用に長けなければならない。
運動、熱、位置情報、深度、無線信号、ビデオ、オーディオからの知覚データは、物理環境の状態をモデル化するためにますます使われています。
既存の取り組みは、しばしば単一の感覚的モダリティまたは予測タスクに特化している。
本稿は、12のモダリティと8つの現実世界タスクから115万以上のサンプルを含む、これまでで最も拡張的で統一されたIoTベンチマークであるMultiIoTを提案する。
論文 参考訳(メタデータ) (2023-11-10T18:13:08Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - Prompt-to-OS (P2OS): Revolutionizing Operating Systems and
Human-Computer Interaction with Integrated AI Generative Models [10.892991111926573]
本稿では,従来のオペレーティングシステムの概念に革命をもたらす,人間とコンピュータのインタラクションのためのパラダイムを提案する。
この革新的なフレームワークでは、マシンに発行されるユーザリクエストは、生成AIモデルの相互接続エコシステムによって処理される。
このビジョンの概念は、プライバシ、セキュリティ、信頼性、生成モデルの倫理的利用など、重要な課題を提起する。
論文 参考訳(メタデータ) (2023-10-07T17:16:34Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。