Fugu-MT 論文翻訳(概要): Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models

論文の概要: Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models

arxiv url: http://arxiv.org/abs/2410.13002v1
Date: Wed, 16 Oct 2024 19:59:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.614452
Title: Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models
Title（参考訳）: Flex: 基礎モデルを用いたエンドツーエンドのテキストインストラクションビジュアルナビゲーション
Authors: Makram Chahine, Alex Quach, Alaa Maalouf, Tsun-Hsuan Wang, Daniela Rus,
Abstract要約: 本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
参考スコア（独自算出の注目度）: 59.892436892964376
License: http://creativecommons.org/licenses/by/4.0/
Abstract: End-to-end learning directly maps sensory inputs to actions, creating highly integrated and efficient policies for complex robotics tasks. However, such models are tricky to efficiently train and often struggle to generalize beyond their training scenarios, limiting adaptability to new environments, tasks, and concepts. In this work, we investigate the minimal data requirements and architectural adaptations necessary to achieve robust closed-loop performance with vision-based control policies under unseen text instructions and visual distribution shifts. To this end, we design datasets with various levels of data representation richness, refine feature extraction protocols by leveraging multi-modal foundation model encoders, and assess the suitability of different policy network heads. Our findings are synthesized in Flex (Fly-lexically), a framework that uses pre-trained Vision Language Models (VLMs) as frozen patch-wise feature extractors, generating spatially aware embeddings that integrate semantic and visual information. These rich features form the basis for training highly robust downstream policies capable of generalizing across platforms, environments, and text-specified tasks. We demonstrate the effectiveness of this approach on quadrotor fly-to-target tasks, where agents trained via behavior cloning on a small simulated dataset successfully generalize to real-world scenes, handling diverse novel goals and command formulations.
Abstract（参考訳）: エンドツーエンドの学習は、感覚入力を直接アクションにマッピングし、複雑なロボティクスタスクのための高度に統合された効率的なポリシーを作成する。しかしながら、そのようなモデルは効率的なトレーニングが難しいため、トレーニングシナリオを超えて、新しい環境やタスク、コンセプトへの適応性を制限するのに苦労することが多い。本研究では,非表示テキスト命令と視覚分布シフトの下で,視覚に基づく制御ポリシを用いて,ロバストなクローズドループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この目的のために,マルチモーダル基礎モデルエンコーダを用いて,データ表現の豊かさ,特徴抽出プロトコルを洗練し,異なるポリシーネットワークヘッドの適合性を評価するデータセットを設計する。この知見はFlex (Fly-lexically) で合成され, 予め訓練した視覚言語モデル (VLM) をフリーズしたパッチワイド特徴抽出器として使用し, 意味情報と視覚情報を統合した空間認識埋め込みを生成する。これらのリッチな機能は、プラットフォーム、環境、テキスト指定タスクをまたいだ一般化が可能な、高度に堅牢な下流ポリシーのトレーニング基盤を形成する。そこで,本手法の有効性を実証し,実世界のシーンに適応し,多様な新しい目標とコマンドの定式化を行う。

関連論文リスト

Vision Language Action Models in Robotic Manipulation: A Systematic Review [1.1767330101986737]
ビジョン言語アクション(VLA)モデルは、ロボット工学の変革的なシフトを表す。本稿では,VLAパラダイムの包括的で先進的な合成について述べる。 102のVLAモデル、26の基盤データセット、12のシミュレーションプラットフォームを分析します。
論文参考訳（メタデータ） (2025-07-14T18:00:34Z)
Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation [67.31811007549489]
視覚言語ナビゲーション(VLN)のためのリライト駆動型AugMentation(RAM)パラダイムを提案する。書き換え機構を応用して, シミュレータフリー, 省力化の両面で新たな観察指導が可能となり, 一般化が促進される。離散環境 (R2R, REVERIE, R4R) と連続環境 (R2R-CE) の両方における実験により, 本手法の優れた性能と優れた一般化能力が示された。
論文参考訳（メタデータ） (2025-03-23T13:18:17Z)
Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文参考訳（メタデータ） (2025-02-17T18:04:39Z)
Planning-Guided Diffusion Policy Learning for Generalizable Contact-Rich Bimanual Manipulation [16.244250979166214]
Generalizable Planning-Guided Diffusion Policy Learning (GLIDE)は、コンタクトリッチな双方向操作タスクを解決するためのアプローチである。本稿では,特徴抽出,タスク表現,行動予測,データ拡張における重要な設計オプションのセットを提案する。本手法は, 多様な地形, 寸法, 物理的特性の物体を効果的に操作することができる。
論文参考訳（メタデータ） (2024-12-03T18:51:39Z)
Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners [8.707819647492467]
視覚言語モデル全体(VLM)の精巧な精細化によるタスク固有情報の取得について検討する。これらの問題を緩和するために,識別的視覚テキストタスクを設計するCLIP-CITEというフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-04T15:22:54Z)
RS-GPT4V: A Unified Multimodal Instruction-Following Dataset for Remote Sensing Image Understanding [4.266920365127677]
新しいLaGDパラダイムの下では、古いデータセットはもはや新しいタスクには適していない。我々は、RSI理解のための高品質で多様なマルチモーダル命令追従データセットを設計した。実験結果から, RS-GPT4Vによる微調整MLLMは, きめ細かい情報を記述できることがわかった。
論文参考訳（メタデータ） (2024-06-18T10:34:28Z)
Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文参考訳（メタデータ） (2024-05-09T15:39:54Z)
Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文参考訳（メタデータ） (2024-02-08T03:41:39Z)
Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in Clutter [14.489086924126253]
本研究は, 乱雑な場面において, 自然言語で参照される物体のつかみポーズを予測する, つかみ合成を参照する作業に焦点をあてる。既存のアプローチでは、参照対象をまずセグメント化し、適切な把握を提案し、自然屋内シーンの複雑さを捉えないプライベートデータセットやシミュレータで評価される。本稿では,CLIPの視覚的接地機能を利用して,画像とテキストのペアから直接合成を学習する新しいエンド・ツー・エンド・モデル(CROG)を提案する。
論文参考訳（メタデータ） (2023-11-09T22:55:10Z)
u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文参考訳（メタデータ） (2023-11-09T13:18:27Z)
An Efficient General-Purpose Modular Vision Model via Multi-Task Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文参考訳（メタデータ） (2023-06-29T17:59:57Z)
ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文参考訳（メタデータ） (2023-05-29T14:29:12Z)
Learning Action-Effect Dynamics from Pairs of Scene-graphs [50.72283841720014]
本稿では,画像のシーングラフ表現を利用して,自然言語で記述された行動の効果を推論する手法を提案する。提案手法は,既存のモデルと比較して,性能,データ効率,一般化能力の点で有効である。
論文参考訳（メタデータ） (2022-12-07T03:36:37Z)
Seeing What You Miss: Vision-Language Pre-training with Semantic Completion Learning [22.464424641734652]
クロスモーダルアライメントは視覚言語事前学習モデルに不可欠である。本研究では,グローバル・ローカル・アライメントを支援するセマンティック・コンプリート学習タスクを提案する。また、フレキシブル・ビジョン・エンコーダを導入し、画像テキストとビデオテキストのマルチモーダルタスクを同時に実行できるようにした。
論文参考訳（メタデータ） (2022-11-24T06:39:16Z)
Dynamic Feature Integration for Simultaneous Detection of Salient Object, Edge and Skeleton [108.01007935498104]
本稿では,高次物体分割,エッジ検出,スケルトン抽出など,低レベルの3つの視覚問題を解く。まず、これらのタスクで共有される類似点を示し、統一されたフレームワークの開発にどのように活用できるかを示す。
論文参考訳（メタデータ） (2020-04-18T11:10:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。