論文の概要: RASP: A Drone-based Reconfigurable Actuation and Sensing Platform for Engaging Physical Environments with Foundation Models
- arxiv url: http://arxiv.org/abs/2403.12853v2
- Date: Tue, 9 Jul 2024 18:03:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-11 21:29:48.868006
- Title: RASP: A Drone-based Reconfigurable Actuation and Sensing Platform for Engaging Physical Environments with Foundation Models
- Title(参考訳): RASP: ファンデーションモデルによる物理環境構築のためのドローンによる再構成可能なアクチュレーションとセンシングプラットフォーム
- Authors: Minghui Zhao, Junxi Xia, Kaiyuan Hou, Yanchen Liu, Stephen Xia, Xiaofan Jiang,
- Abstract要約: 本稿では,モジュール型かつ再構成可能なドローン用センシング・アクチュエータプラットフォームであるRANを提案する。
RASPを使えば、ドローンはセンサーやアクチュエータをわずか25ドル(約2万2000円)で交換できる。
RASP が FM と LLM の多様なタスクを,最大 85% 以上の成功で完了可能にする,真のスマートホームデプロイメントを実演しています。
- 参考スコア(独自算出の注目度): 2.3261005827458665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models and large language models have shown immense human-like understanding and capabilities for generating text and digital media. However, foundation models that can freely sense, interact, and actuate the physical world like in the digital domain is far from being realized. This is due to a number of challenges including: 1) being constrained to the types of static devices and sensors deployed, 2) events often being localized to one part of a large space, and 3) requiring dense and deployments of devices to achieve full coverage. As a critical step towards enabling foundation models to successfully and freely interact with the physical environment, we propose RASP, a modular and reconfigurable sensing and actuation platform that allows drones to autonomously swap onboard sensors and actuators in only $25$ seconds, allowing a single drone to quickly adapt to a diverse range of tasks. We demonstrate through real smart home deployments that RASP enables FMs and LLMs to complete diverse tasks up to $85\%$ more successfully by allowing them to target specific areas with specific sensors and actuators on-the-fly.
- Abstract(参考訳): 基礎モデルと大規模言語モデルは、テキストやデジタルメディアを生成するための人間的な理解と能力を示してきた。
しかし、デジタルドメインのような物理的な世界を自由に理解し、相互作用し、活性化できる基盤モデルは、実現されるには程遠い。
これは、次のようないくつかの課題による。
1) 搭載される静的デバイスやセンサの種類に制約されていること。
2 イベントは、しばしば大きな空間の一部に局所化され、
3) 完全なカバレッジを達成するためには、デバイスを密集してデプロイする必要がある。
RASPは、モジュラーで再構成可能なセンシングおよびアクチュエータプラットフォームで、オンボードセンサーとアクチュエータをわずか25ドル秒で自律的に交換し、単一のドローンがさまざまなタスクに迅速に適応できるようにする。
RASPがFMとLLMの多様なタスクを最大8,5 %以上の成功率で完了できるように、実際のスマートホームデプロイメントを通じてデモを行い、特定のセンサーやアクチュエータをオンザフライで特定の領域をターゲットにできるようにしました。
関連論文リスト
- EarthGPT-X: Enabling MLLMs to Flexibly and Comprehensively Understand Multi-Source Remote Sensing Imagery [15.581788175591097]
リモートセンシング画像に自然空間モデルを適用することは困難である。
EarthGPT-Xはズームインとズームアウトのインサイトを提供する。
実験は、多粒度タスクにおける提案された地球GPT-Xの優位性を実証した。
論文 参考訳(メタデータ) (2025-04-17T09:56:35Z) - FlexiMo: A Flexible Remote Sensing Foundation Model [33.027094254412056]
FlexiMoはフレキシブルなリモートセンシング基盤モデルであり、任意の空間解像度に対応する柔軟性を備えた事前訓練されたモデルを提供する。
Central to FlexiMoは空間分解能を意識したモジュールで、パラメータフリーアライメントの埋め込み機構を採用している。
多様なマルチモーダル、マルチレゾリューション、マルチスケールデータセットの実験により、FlexiMoはモデルの一般化とロバスト性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-03-31T08:46:05Z) - Foundational Models for 3D Point Clouds: A Survey and Outlook [50.61473863985571]
3次元点雲の表現は、物理世界の幾何学的忠実性を維持する上で重要な役割を担っている。
このギャップを埋めるためには、複数のモダリティを組み込む必要がある。
ファンデーションモデル(FM)は、これらのモダリティをシームレスに統合し、推論することができる。
論文 参考訳(メタデータ) (2025-01-30T18:59:43Z) - OptiGrasp: Optimized Grasp Pose Detection Using RGB Images for Warehouse Picking Robots [27.586777997464644]
倉庫環境では、ロボットはさまざまなオブジェクトを管理するために堅牢なピッキング機能を必要とする。
基礎モデルを活用する革新的な手法を提案し,RGB画像のみを用いた吸引把握を向上する。
我々のネットワークは実世界のアプリケーションで82.3%の成功率を達成した。
論文 参考訳(メタデータ) (2024-09-29T00:20:52Z) - Synergizing Foundation Models and Federated Learning: A Survey [23.416321895575507]
本稿では,フェデレートラーニング(FL)とファンデーションモデル(FM)の融合の可能性と課題について論じる。
FLは、さまざまな参加者からのデータ可用性の障壁を破る、共同学習パラダイムである。
プライバシを保護しながら、分散データセットを使用して、幅広いドメイン固有のタスクにFMをカスタマイズし、適応する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-06-18T17:58:09Z) - Forging Vision Foundation Models for Autonomous Driving: Challenges,
Methodologies, and Opportunities [59.02391344178202]
ビジョンファウンデーションモデル(VFM)は、幅広いAIアプリケーションのための強力なビルディングブロックとして機能する。
総合的なトレーニングデータの不足、マルチセンサー統合の必要性、多様なタスク固有のアーキテクチャは、VFMの開発に重大な障害をもたらす。
本稿では、自動運転に特化したVFMを鍛造する上で重要な課題について述べるとともに、今後の方向性を概説する。
論文 参考訳(メタデータ) (2024-01-16T01:57:24Z) - A Survey on Efficient Federated Learning Methods for Foundation Model Training [62.473245910234304]
フェデレーテッド・ラーニング(FL)は、多数のクライアントにわたるプライバシー保護協調トレーニングを促進するための確立した技術となっている。
Foundation Models (FM)の後、多くのディープラーニングアプリケーションでは現実が異なる。
FLアプリケーションに対するパラメータ効率細調整(PEFT)の利点と欠点について論じる。
論文 参考訳(メタデータ) (2024-01-09T10:22:23Z) - Grounding Foundation Models through Federated Transfer Learning: A
General Framework [20.341440265217496]
GPT-4のような基礎モデル(FM)は、様々な自然言語処理やコンピュータビジョンタスクにおいて顕著な成功を収めている。
FMをドメイン固有のタスクに適応させたり、ドメイン固有の知識で拡張することで、FMの潜在能力を最大限に活用することができる。
近年,フェデレート・トランスファー・ラーニング(FTL)を活用したFMの基盤化の必要性が,学術と産業の両面で強く現れている。
FTL-FM研究の強い成長と、FTL-FMが産業応用に与える影響を動機として、FTL-FMフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-29T08:21:42Z) - The Role of Federated Learning in a Wireless World with Foundation Models [59.8129893837421]
ファンデーションモデル(FM)は汎用人工知能(AI)モデルである。
現在、FMと連邦学習(FL)の相互作用の探索はまだ初期段階にある。
本稿では、FMが無線ネットワークよりもFLに適した範囲について検討し、その研究課題と機会について概観する。
論文 参考訳(メタデータ) (2023-10-06T04:13:10Z) - Orbital AI-based Autonomous Refuelling Solution [6.776059370975249]
本稿では、ドッキングおよび軌道上サーベイシング(OOS)の主センサとしてのオンボード可視光カメラの利用を成熟させるAIベースのナビゲーションアルゴリズムの開発について述べる。
複数の畳み込みニューラルネットワークバックボーンアーキテクチャは、国際宇宙ステーション(ISS)とのドッキング操作の合成データに基づいてベンチマークされる
再給油機構の物理プロトタイプと溶液の統合を、ロボットアームを用いて実験室で検証し、バーシング手順をシミュレートする。
論文 参考訳(メタデータ) (2023-09-20T21:25:52Z) - Prompt a Robot to Walk with Large Language Models [18.214609570837403]
巨大な言語モデル(LLM)は、大規模なインターネットスケールのデータで事前訓練されている。
物理的環境から収集した数発のプロンプトを使用する新しいパラダイムを導入する。
様々なロボットと環境をまたいだ実験により、我々の手法がロボットに歩行を効果的に促すことが検証された。
論文 参考訳(メタデータ) (2023-09-18T17:50:17Z) - FedYolo: Augmenting Federated Learning with Pretrained Transformers [61.56476056444933]
本研究では,デバイス上での学習目標を達成するための事前学習型トランスフォーマー(PTF)について検討する。
大規模化により,代替手法間の精度ギャップが小さくなり,ロバスト性も向上することを示す。
最後に、クライアントは単一のPTFを使用して複数の無関係なタスクを同時に解決できる。
論文 参考訳(メタデータ) (2023-07-10T21:08:52Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Modality-invariant Visual Odometry for Embodied Vision [1.7188280334580197]
ビジュアルオドメトリー(VO)は、信頼性の低いGPSとコンパスセンサーの代替品である。
最近のディープVOモデルは、数百万のサンプルをトレーニングしながら、RGBや深さなどの入力モダリティの固定セットに制限されている。
本稿では,トランスフォーマーをベースとしたモダリティ不変VOアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-29T21:47:12Z) - FederatedScope-GNN: Towards a Unified, Comprehensive and Efficient
Package for Federated Graph Learning [65.48760613529033]
フェデレートグラフ学習(FGL)は、その特徴と要求のため、十分にサポートされていない。
まず、使い易いFGLパッケージを作成する際の課題について議論し、実装済みのFederatedScope-GNN(FS-G)を提示する。
我々は,FS-Gの有効性を広範囲な実験によって検証し,同時にコミュニティにとってのFGLに関する貴重な洞察を得る。
論文 参考訳(メタデータ) (2022-04-12T06:48:06Z) - Deep Learning for Real Time Satellite Pose Estimation on Low Power Edge
TPU [58.720142291102135]
本稿では,ニューラルネットワークアーキテクチャを利用したポーズ推定ソフトウェアを提案する。
我々は、低消費電力の機械学習アクセラレーターが宇宙での人工知能の活用を可能にしていることを示す。
論文 参考訳(メタデータ) (2022-04-07T08:53:18Z) - Bayesian Imitation Learning for End-to-End Mobile Manipulation [80.47771322489422]
RGB + 深度カメラのような追加のセンサー入力によるポリシーの強化は、ロボットの知覚能力を改善するための簡単なアプローチである。
畳み込みニューラルネットワークを正規化するために変分情報ボトルネックを用いることで、保持領域への一般化が向上することを示す。
提案手法は, シミュレーションと現実のギャップを埋めることと, RGBと奥行き変調をうまく融合できることを実証する。
論文 参考訳(メタデータ) (2022-02-15T17:38:30Z) - ADAPT: An Open-Source sUAS Payload for Real-Time Disaster Prediction and
Response with AI [55.41644538483948]
小型無人航空機システム(sUAS)は、多くの人道支援や災害対応作戦において顕著な構成要素となっている。
我々は,SUAS上にリアルタイムAIとコンピュータビジョンをデプロイするための,オープンソースのADAPTマルチミッションペイロードを開発した。
本研究では,河川氷の状態を監視し,破滅的な洪水現象をタイムリーに予測するための,リアルタイム・飛行中の氷分断の例を示す。
論文 参考訳(メタデータ) (2022-01-25T14:51:19Z) - Autonomous Aerial Robot for High-Speed Search and Intercept Applications [86.72321289033562]
高速物体把握のための完全自律飛行ロボットが提案されている。
追加のサブタスクとして、我々のシステムは、表面に近い極にある気球を自律的にピアスすることができる。
我々のアプローチは、挑戦的な国際競争で検証され、優れた結果が得られました。
論文 参考訳(メタデータ) (2021-12-10T11:49:51Z) - Scalable Primitives for Generalized Sensor Fusion in Autonomous Vehicles [3.7543422202019427]
Generalized Sensor Fusion (GSF) は、センサ入力とターゲットタスクの両方がモジュラーで変更可能であるように設計されている。
これにより、AVシステムデザイナは、さまざまなセンサー構成や方法を簡単に試すことができ、異種艦隊に展開することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T01:43:15Z) - VISTA 2.0: An Open, Data-driven Simulator for Multimodal Sensing and
Policy Learning for Autonomous Vehicles [131.2240621036954]
VISTAはオープンソースのデータ駆動シミュレータで、複数のタイプのセンサーを自律走行車に組み込む。
高忠実で実世界のデータセットを使用して、VISTAはRGBカメラ、3D LiDAR、イベントベースのカメラを表現し、シミュレートする。
センサタイプ毎に知覚制御ポリシーをトレーニングし,テストする能力を示し,フルスケールの自律走行車への展開を通じて,このアプローチのパワーを示す。
論文 参考訳(メタデータ) (2021-11-23T18:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。