論文の概要: SA-GCS: Semantic-Aware Gaussian Curriculum Scheduling for UAV Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2508.00390v1
- Date: Fri, 01 Aug 2025 07:35:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.774818
- Title: SA-GCS: Semantic-Aware Gaussian Curriculum Scheduling for UAV Vision-Language Navigation
- Title(参考訳): SA-GCS:UAVビジョンランゲージナビゲーションのための意味認識型ガウスカリキュラムスケジューリング
- Authors: Hengxing Cai, Jinhan Dong, Yijie Rao, Jingcheng Deng, Jingjun Tan, Qien Chen, Haidong Wang, Zhen Wang, Shiyu Huang, Agachai Sumalee, Renxin Zhong,
- Abstract要約: Unmanned Aerial Vehicle (UAV) Vision-Language Navigation (VLN) は、エージェントが複雑な環境で目標を正確にローカライズし、飛行経路を計画できるようにすることを目的としている。
VLM(Vision-Language Models)の最近の進歩は、このタスクに強力な意味理解をもたらした。
強化学習は、一般化をさらに改善するために、トレーニング後の有望な戦略として登場した。
- 参考スコア(独自算出の注目度): 9.948269990112365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unmanned Aerial Vehicle (UAV) Vision-Language Navigation (VLN) aims to enable agents to accurately localize targets and plan flight paths in complex environments based on natural language instructions, with broad applications in intelligent inspection, disaster rescue, and urban monitoring. Recent progress in Vision-Language Models (VLMs) has provided strong semantic understanding for this task, while reinforcement learning (RL) has emerged as a promising post-training strategy to further improve generalization. However, existing RL methods often suffer from inefficient use of training data, slow convergence, and insufficient consideration of the difficulty variation among training samples, which limits further performance improvement. To address these challenges, we propose \textbf{Semantic-Aware Gaussian Curriculum Scheduling (SA-GCS)}, a novel training framework that systematically integrates Curriculum Learning (CL) into RL. SA-GCS employs a Semantic-Aware Difficulty Estimator (SA-DE) to quantify the complexity of training samples and a Gaussian Curriculum Scheduler (GCS) to dynamically adjust the sampling distribution, enabling a smooth progression from easy to challenging tasks. This design significantly improves training efficiency, accelerates convergence, and enhances overall model performance. Extensive experiments on the CityNav benchmark demonstrate that SA-GCS consistently outperforms strong baselines across all metrics, achieves faster and more stable convergence, and generalizes well across models of different scales, highlighting its robustness and scalability. The implementation of our approach is publicly available.
- Abstract(参考訳): Unmanned Aerial Vehicle (UAV) Vision-Language Navigation (VLN) は、エージェントが自然言語の指示に基づいて複雑な環境で目標を正確にローカライズし、飛行経路を計画できるようにすることを目的としている。
近年のビジョン・ランゲージ・モデル(VLM)の進歩は、この課題に対して強力な意味理解をもたらし、強化学習(RL)は、一般化をさらに改善するための有望な後学習戦略として現れている。
しかし, 既存のRL法では, トレーニングデータの非効率利用, 収束の遅さ, トレーニングサンプルの難易度の変化の考慮が不十分であり, さらなる性能向上が期待できる。
これらの課題に対処するために,カリキュラム学習(CL)をRLに体系的に統合する新しいトレーニングフレームワークである,‘textbf{Semantic-Aware Gaussian Curriculum Scheduling(SA-GCS)’を提案する。
SA-GCSは、トレーニングサンプルの複雑さを定量化するためにSemantic-Aware Difficulty Estimator (SA-DE) と、サンプリング分布を動的に調整するためにGaussian Curriculum Scheduler (GCS) を使用している。
この設計はトレーニング効率を大幅に改善し、収束を加速し、全体的なモデル性能を向上させる。
CityNavベンチマークの大規模な実験では、SA-GCSはすべてのメトリクスで一貫して強力なベースラインを上回り、より速くより安定した収束を実現し、さまざまなスケールのモデルにわたってうまく一般化し、その堅牢性とスケーラビリティを強調している。
このアプローチの実装は公開されています。
関連論文リスト
- Omni-Thinker: Scaling Cross-Domain Generalization in LLMs via Multi-Task RL with Hybrid Rewards [50.21528417884747]
Omni-Thinkerは多種多様なタスクにわたる大規模言語モデル(LLM)の性能を向上させる統合強化学習フレームワークである。
我々の手法はタスクタイプを一貫した最適化を可能にし、RLベースのトレーニングを主観的ドメインに拡張する。
4つの領域にまたがる実験の結果、カリキュラムの学習は、ジョイントトレーニングよりも5.2%、モデルマージより9.1%向上していることがわかった。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - Enhancing VICReg: Random-Walk Pairing for Improved Generalization and Better Global Semantics Capturing [9.143957433075808]
SAG-VICRegはVICReg上に構築され、新しいトレーニング技術が組み込まれている。
SAG-VICRegは、さまざまな最先端SSLベースラインをマッチングまたは超越しながら、一般化の課題に効果的に対処する。
本稿では,ラベルを必要とせず,グローバルなデータ構造に対する標準評価手法や説明を補完する,埋め込みのための新たなスタンドアロン評価指標を提案する。
論文 参考訳(メタデータ) (2025-06-22T17:17:02Z) - Hierarchical Instruction-aware Embodied Visual Tracking [35.73851196966425]
User-Centric Embodied Visual Tracking (UC-EVT)は、強化学習に基づくモデルにおいて、新しい課題を提示している。
我々は,テキスト空間目標を仲介として利用する命令理解と行動生成を橋渡しする,テキストbfインストラクションを意識した身体的視覚追跡(HIEVT)エージェントを提案する。
論文 参考訳(メタデータ) (2025-05-27T04:36:26Z) - Improving Generalization in Intent Detection: GRPO with Reward-Based Curriculum Sampling [5.321647713109401]
ゼロショットの修正のような既存のアプローチは、目に見えない意図でパフォーマンス劣化と戦っている。
我々は,RL(Reinforcement Learning)とRCS(Reward-based Curriculum Smpling)を併用して,意図検出タスクにおけるグループ相対政策最適化トレーニングを行う。
論文 参考訳(メタデータ) (2025-04-18T09:52:12Z) - UAS Visual Navigation in Large and Unseen Environments via a Meta Agent [0.13654846342364302]
本研究では,大規模都市環境下でのナビゲーションを効率的に学習するためのメタカリキュラムトレーニング手法を提案する。
トレーニングカリキュラムを階層的に整理し,エージェントを粗い状態から目標タスクへ誘導する。
特定のタスクに対するポリシーの獲得に焦点を当てた従来の強化学習(RL)とは対照的に、MRLは、新しいタスクへの高速転送能力を持つポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2025-03-20T01:44:59Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Benchmarking General-Purpose In-Context Learning [19.40952728849431]
In-context Learning (ICL) は、生成モデルに新しいタスクを効果的に、かつ効率的にオンザフライで対処する権限を与える。
本稿では,より広い範囲の課題に対処するためのICLの拡張について検討する。
GPICLの機能のトレーニングと評価に特化して開発されたベンチマークを2つ導入する。
論文 参考訳(メタデータ) (2024-05-27T14:50:42Z) - Training Dynamics for Curriculum Learning: A Study on Monolingual and
Cross-lingual NLU [19.42920238320109]
カリキュラム学習(Curriculum Learning, CL)は、典型的に増加する困難傾向の中で、ランキングの例を通してモデルを訓練する技法である。
本研究では,学習力学を難易度指標として活用することにより,自然言語理解(NLU)タスクにCLを用いる。
実験によると、トレーニングのダイナミクスは、他の難しいメトリクスと比較して、スムーズなトレーニングでより良いパフォーマンスのモデルをもたらす可能性がある。
論文 参考訳(メタデータ) (2022-10-22T17:10:04Z) - Towards Sequence-Level Training for Visual Tracking [60.95799261482857]
本研究は、強化学習に基づく視覚追跡のためのシーケンスレベルのトレーニング戦略を導入する。
4つの代表的な追跡モデル、SiamRPN++、SiamAttn、TransT、TrDiMPは、提案手法をトレーニングに取り入れることで一貫して改善されている。
論文 参考訳(メタデータ) (2022-08-11T13:15:36Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。