論文の概要: FlexiFly: Interfacing the Physical World with Foundation Models Empowered by Reconfigurable Drone Systems
- arxiv url: http://arxiv.org/abs/2403.12853v3
- Date: Wed, 05 Mar 2025 22:11:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:55:05.393241
- Title: FlexiFly: Interfacing the Physical World with Foundation Models Empowered by Reconfigurable Drone Systems
- Title(参考訳): FlexiFly: 再構成可能なドローンシステムを活用した基礎モデルで物理世界と対話
- Authors: Minghui Zhao, Junxi Xia, Kaiyuan Hou, Yanchen Liu, Stephen Xia, Xiaofan Jiang,
- Abstract要約: ファンデーションモデル(FM)は、デジタルメディアを生成できる巨大な人間のような能力を示している。
我々は,FMのズームインを可能にするプラットフォームであるFlexiFlyを提案し,関連する領域を解析する。
FlexiFlyによってFMとLLMの多様なタスクを最大85%以上の成功で完了させることができる実際のスマートホームデプロイメントを実演します。
- 参考スコア(独自算出の注目度): 2.3261005827458665
- License:
- Abstract: Foundation models (FM) have shown immense human-like capabilities for generating digital media. However, foundation models that can freely sense, interact, and actuate the physical domain is far from being realized. This is due to 1) requiring dense deployments of sensors to fully cover and analyze large spaces, while 2) events often being localized to small areas, making it difficult for FMs to pinpoint relevant areas of interest relevant to the current task. We propose FlexiFly, a platform that enables FMs to ``zoom in'' and analyze relevant areas with higher granularity to better understand the physical environment and carry out tasks. FlexiFly accomplishes by introducing 1) a novel image segmentation technique that aids in identifying relevant locations and 2) a modular and reconfigurable sensing and actuation drone platform that FMs can actuate to ``zoom in'' with relevant sensors and actuators. We demonstrate through real smart home deployments that FlexiFly enables FMs and LLMs to complete diverse tasks up to $85\%$ more successfully. FlexiFly is critical step towards FMs and LLMs that can naturally interface with the physical world.
- Abstract(参考訳): ファンデーションモデル(FM)は、デジタルメディアを生成できる巨大な人間のような能力を示している。
しかし、物理的な領域を自由に理解し、相互作用し、活性化できる基礎モデルは、実現されるには程遠い。
これは
1)大規模空間を完全に覆い、分析するためには、密集したセンサーの配置が必要である。
2) イベントは小さな領域にローカライズされることが多いため,FMが現在の課題に関連する関心領域を特定することは困難である。
我々は,FMの「ズームイン」を可能にするプラットフォームであるFlexiFlyを提案し,より粒度の高い領域を分析し,物理的な環境をよりよく理解し,タスクを実行する。
FlexiFlyは導入によって達成される
1)関連箇所の特定を支援する新しい画像分割技術
2) FMが関連するセンサやアクチュエータで 'zoom in' にアクティベート可能な,モジュールで再構成可能なセンシングおよびアクチュエータドローンプラットフォーム。
FlexiFlyの実際のスマートホームデプロイメントを通じて、FMとLLMの多様なタスクを最大8,5\%以上の成功で完了させることができることを実演します。
FlexiFlyは、物理的世界と自然にやりとりできるFMやLLMへの重要なステップです。
関連論文リスト
- OptiGrasp: Optimized Grasp Pose Detection Using RGB Images for Warehouse Picking Robots [27.586777997464644]
倉庫環境では、ロボットはさまざまなオブジェクトを管理するために堅牢なピッキング機能を必要とする。
基礎モデルを活用する革新的な手法を提案し,RGB画像のみを用いた吸引把握を向上する。
我々のネットワークは実世界のアプリケーションで82.3%の成功率を達成した。
論文 参考訳(メタデータ) (2024-09-29T00:20:52Z) - Orbital AI-based Autonomous Refuelling Solution [6.776059370975249]
本稿では、ドッキングおよび軌道上サーベイシング(OOS)の主センサとしてのオンボード可視光カメラの利用を成熟させるAIベースのナビゲーションアルゴリズムの開発について述べる。
複数の畳み込みニューラルネットワークバックボーンアーキテクチャは、国際宇宙ステーション(ISS)とのドッキング操作の合成データに基づいてベンチマークされる
再給油機構の物理プロトタイプと溶液の統合を、ロボットアームを用いて実験室で検証し、バーシング手順をシミュレートする。
論文 参考訳(メタデータ) (2023-09-20T21:25:52Z) - Prompt a Robot to Walk with Large Language Models [18.214609570837403]
巨大な言語モデル(LLM)は、大規模なインターネットスケールのデータで事前訓練されている。
物理的環境から収集した数発のプロンプトを使用する新しいパラダイムを導入する。
様々なロボットと環境をまたいだ実験により、我々の手法がロボットに歩行を効果的に促すことが検証された。
論文 参考訳(メタデータ) (2023-09-18T17:50:17Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Modality-invariant Visual Odometry for Embodied Vision [1.7188280334580197]
ビジュアルオドメトリー(VO)は、信頼性の低いGPSとコンパスセンサーの代替品である。
最近のディープVOモデルは、数百万のサンプルをトレーニングしながら、RGBや深さなどの入力モダリティの固定セットに制限されている。
本稿では,トランスフォーマーをベースとしたモダリティ不変VOアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-29T21:47:12Z) - Deep Learning for Real Time Satellite Pose Estimation on Low Power Edge
TPU [58.720142291102135]
本稿では,ニューラルネットワークアーキテクチャを利用したポーズ推定ソフトウェアを提案する。
我々は、低消費電力の機械学習アクセラレーターが宇宙での人工知能の活用を可能にしていることを示す。
論文 参考訳(メタデータ) (2022-04-07T08:53:18Z) - Bayesian Imitation Learning for End-to-End Mobile Manipulation [80.47771322489422]
RGB + 深度カメラのような追加のセンサー入力によるポリシーの強化は、ロボットの知覚能力を改善するための簡単なアプローチである。
畳み込みニューラルネットワークを正規化するために変分情報ボトルネックを用いることで、保持領域への一般化が向上することを示す。
提案手法は, シミュレーションと現実のギャップを埋めることと, RGBと奥行き変調をうまく融合できることを実証する。
論文 参考訳(メタデータ) (2022-02-15T17:38:30Z) - ADAPT: An Open-Source sUAS Payload for Real-Time Disaster Prediction and
Response with AI [55.41644538483948]
小型無人航空機システム(sUAS)は、多くの人道支援や災害対応作戦において顕著な構成要素となっている。
我々は,SUAS上にリアルタイムAIとコンピュータビジョンをデプロイするための,オープンソースのADAPTマルチミッションペイロードを開発した。
本研究では,河川氷の状態を監視し,破滅的な洪水現象をタイムリーに予測するための,リアルタイム・飛行中の氷分断の例を示す。
論文 参考訳(メタデータ) (2022-01-25T14:51:19Z) - Autonomous Aerial Robot for High-Speed Search and Intercept Applications [86.72321289033562]
高速物体把握のための完全自律飛行ロボットが提案されている。
追加のサブタスクとして、我々のシステムは、表面に近い極にある気球を自律的にピアスすることができる。
我々のアプローチは、挑戦的な国際競争で検証され、優れた結果が得られました。
論文 参考訳(メタデータ) (2021-12-10T11:49:51Z) - Scalable Primitives for Generalized Sensor Fusion in Autonomous Vehicles [3.7543422202019427]
Generalized Sensor Fusion (GSF) は、センサ入力とターゲットタスクの両方がモジュラーで変更可能であるように設計されている。
これにより、AVシステムデザイナは、さまざまなセンサー構成や方法を簡単に試すことができ、異種艦隊に展開することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T01:43:15Z) - VISTA 2.0: An Open, Data-driven Simulator for Multimodal Sensing and
Policy Learning for Autonomous Vehicles [131.2240621036954]
VISTAはオープンソースのデータ駆動シミュレータで、複数のタイプのセンサーを自律走行車に組み込む。
高忠実で実世界のデータセットを使用して、VISTAはRGBカメラ、3D LiDAR、イベントベースのカメラを表現し、シミュレートする。
センサタイプ毎に知覚制御ポリシーをトレーニングし,テストする能力を示し,フルスケールの自律走行車への展開を通じて,このアプローチのパワーを示す。
論文 参考訳(メタデータ) (2021-11-23T18:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。