論文の概要: Select2Plan: Training-Free ICL-Based Planning through VQA and Memory Retrieval
- arxiv url: http://arxiv.org/abs/2411.04006v1
- Date: Wed, 06 Nov 2024 15:44:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:22:49.599529
- Title: Select2Plan: Training-Free ICL-Based Planning through VQA and Memory Retrieval
- Title(参考訳): Select2Plan: VQAとメモリ検索によるトレーニング不要ICLベースプランニング
- Authors: Davide Buoso, Luke Robinson, Giuseppe Averta, Philip Torr, Tim Franzmeyer, Daniele De Martini,
- Abstract要約: Select2Plan(S2P)は,高レベルのロボット計画のためのトレーニング不要のフレームワークである。
構造化された視覚質問応答(VQA)と文脈学習(ICL)を活用することで,データ収集の必要性を大幅に低減する。
従来のファーストパーソンビュー(FPV)とインフラ駆動のサードパーソンビュー(TPV)の2つのシナリオでこのアプローチを実証する。
- 参考スコア(独自算出の注目度): 13.321780469199606
- License:
- Abstract: This study explores the potential of off-the-shelf Vision-Language Models (VLMs) for high-level robot planning in the context of autonomous navigation. Indeed, while most of existing learning-based approaches for path planning require extensive task-specific training/fine-tuning, we demonstrate how such training can be avoided for most practical cases. To do this, we introduce Select2Plan (S2P), a novel training-free framework for high-level robot planning which completely eliminates the need for fine-tuning or specialised training. By leveraging structured Visual Question-Answering (VQA) and In-Context Learning (ICL), our approach drastically reduces the need for data collection, requiring a fraction of the task-specific data typically used by trained models, or even relying only on online data. Our method facilitates the effective use of a generally trained VLM in a flexible and cost-efficient way, and does not require additional sensing except for a simple monocular camera. We demonstrate its adaptability across various scene types, context sources, and sensing setups. We evaluate our approach in two distinct scenarios: traditional First-Person View (FPV) and infrastructure-driven Third-Person View (TPV) navigation, demonstrating the flexibility and simplicity of our method. Our technique significantly enhances the navigational capabilities of a baseline VLM of approximately 50% in TPV scenario, and is comparable to trained models in the FPV one, with as few as 20 demonstrations.
- Abstract(参考訳): 本研究では、自律ナビゲーションの文脈において、高レベルのロボット計画のための市販のビジョン・ランゲージ・モデル(VLM)の可能性について検討する。
実際、パスプランニングのための既存の学習ベースのアプローチの多くは、タスク固有のトレーニング/ファインタニングを必要とするが、そのようなトレーニングがほとんどの実践的なケースでどのように避けられるかを実証する。
これを実現するために,高レベルのロボット計画のための新しいトレーニングフリーフレームワークであるSelect2Plan(S2P)を導入する。
構造化Visual Question-Answering (VQA) と In-Context Learning (ICL) を活用することで、我々のアプローチはデータ収集の必要性を大幅に減らし、トレーニングされたモデルで一般的に使用されるタスク固有のデータの一部、あるいはオンラインデータのみに依存することさえ必要とします。
本手法は, フレキシブルでコスト効率のよいVLMの有効利用が容易であり, 単眼カメラ以外は追加のセンシングは不要である。
様々なシーンタイプ、コンテキストソース、センシング設定にまたがって適応性を示す。
従来のファーストパーソンビュー(FPV)とインフラ駆動のサードパーソンビュー(TPV)の2つのシナリオでアプローチを評価し,その柔軟性と簡易性を実証した。
提案手法は,TPVシナリオで約50%のベースラインVLMのナビゲーション能力を大幅に向上させ,FPVシナリオで訓練されたモデルに匹敵する性能を最大20のデモで実現した。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Hierarchical and Decoupled BEV Perception Learning Framework for Autonomous Driving [52.808273563372126]
本稿では,基本認識モジュールとユーザフレンドリなグラフィカルインタフェースのライブラリの提供を目的とした,新しい階層的BEV知覚パラダイムを提案する。
我々は,大規模公開データセットと合理化開発プロセスを効果的に活用するために,Pretrain-Finetune戦略を実行している。
また、マルチモジュールラーニング(MML)アプローチを提案し、複数のモデルの相乗的かつ反復的な訓練により性能を向上させる。
論文 参考訳(メタデータ) (2024-07-17T11:17:20Z) - A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - TrACT: A Training Dynamics Aware Contrastive Learning Framework for Long-tail Trajectory Prediction [7.3292387742640415]
本稿では,よりリッチなトレーニングダイナミックス情報を,原型的コントラスト学習フレームワークに組み込むことを提案する。
我々は,2つの大規模自然主義データセットを用いたアプローチの実証評価を行った。
論文 参考訳(メタデータ) (2024-04-18T23:12:46Z) - LCV2: An Efficient Pretraining-Free Framework for Grounded Visual Question Answering [6.263815658578159]
LCV2モジュラー法は視覚言語マルチモーダル領域におけるグラウンドド視覚質問応答タスクに対して提案される。
このアプローチは、市販のVQAモデルと市販のビジュアルグラウンド(VG)モデルの間の中間メディエータとして、凍結した大言語モデル(LLM)に依存している。
このフレームワークは、低計算リソース下でのVQAグラウンディングタスクにデプロイすることができる。
論文 参考訳(メタデータ) (2024-01-29T02:32:25Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。
提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-11-17T18:59:49Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Using Deep Reinforcement Learning Methods for Autonomous Vessels in 2D
Environments [11.657524999491029]
本研究では,Q-Learningとニューラル表現を組み合わせた深層強化学習を用いて不安定性を回避する。
当社の方法論では,Q-Learningを深く使用して,アジャイル方法論のローリングウェーブプランニングアプローチと組み合わせています。
実験の結果,VVNの長距離ミッションの平均性能は55.31倍に向上した。
論文 参考訳(メタデータ) (2020-03-23T12:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。