Fugu-MT 論文翻訳(概要): AeroBridge-TTA: Test-Time Adaptive Language-Conditioned Control for UAVs

論文の概要: AeroBridge-TTA: Test-Time Adaptive Language-Conditioned Control for UAVs

arxiv url: http://arxiv.org/abs/2604.19059v1
Date: Tue, 21 Apr 2026 04:08:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-22 22:41:49.610812
Title: AeroBridge-TTA: Test-Time Adaptive Language-Conditioned Control for UAVs
Title（参考訳）: AeroBridge-TTA:UAVのためのテスト時間適応型言語記述制御
Authors: Lingxue Lyu,
Abstract要約: 本稿では,実行ミスマッチをターゲットとした言語条件制御パイプラインであるAeroBridge-TTAを提案する。コマンドをサブゴールにマッピングする言語エンコーダ、サブゴールに条件付き適応ポリシー、テスト時間適応モジュールの3つの部分がある。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language-guided unmanned aerial vehicles (UAVs) often fail not from bad reasoning or perception, but from execution mismatch: the gap between a planned trajectory and the controller's ability to track it when the real dynamics differ from training (mass changes, drag shifts, actuator delay, wind). We propose AeroBridge-TTA, a language-conditioned control pipeline that targets this gap with test-time adaptation. It has three parts: a language encoder that maps the command into a subgoal, an adaptive policy conditioned on the subgoal and a learned latent, and a test-time adaptation (TTA) module that updates the latent online from observed transitions. On five language-conditioned UAV tasks under 13 mismatch conditions with the same domain randomization, AeroBridge-TTA ties a strong PPO-MLP baseline in-distribution and wins all 5 out-of-distribution (OOD) conditions, +22.0 pts on average (62.7% vs. 40.7%); the +8.5 pt overall gain comes entirely from the OOD regime. A same-weights ablation that only changes the step size $α$ shows the latent update itself is responsible for a $4.6\times$ OOD lift.
Abstract（参考訳）: 言語誘導無人航空機(UAV)は、しばしば悪い推論や認識から失敗するが、実行ミスマッチにより失敗する: 計画された軌道と実際のダイナミクスが訓練と異なる場合(質量変化、ドラッグシフト、アクチュエータ遅延、風)に追跡するコントローラーの能力のギャップ。本研究では,テスト時間適応によるこのギャップを目標とする言語条件制御パイプラインであるAeroBridge-TTAを提案する。コマンドをサブゴールにマッピングする言語エンコーダ、サブゴールに条件付けされた適応ポリシーと学習された潜伏者、観察された遷移からオンラインで更新するテスト時適応(TTA)モジュールの3つの部分がある。同じドメインランダム化で13のミスマッチ条件下での5つの言語条件付きUAVタスクにおいて、AeroBridge-TTAは強力なPPO-MLPベースラインを分配し、5つのアウト・オブ・ディストリビューション(OOD)条件を全て勝利させ、平均で+22.0 pts(62.7%対40.7%)、+8.5 ptの全体ゲインはOOD体制から得られる。ステップサイズだけをαドルで変更した同級者のアブレーションは、潜伏中の更新自体がOODリフトの4.6\timesの責任を負っていることを示している。

関連論文リスト

Shuffle the Context: RoPE-Perturbed Self-Distillation for Long-Context Adaptation [86.62036852878354]
大規模言語モデル(LLM)は、信頼性の高い長文理解を必要とする設定でますます運用される。位置ロバスト性を向上させるトレーニングレギュレータであるRoPE-Perturbed Self-Distillationを提案する。 Llama-3-8BとQwen-3-4Bの長文適応実験は、長文ベンチマークにおいて一貫した利得を示す。
論文参考訳（メタデータ） (2026-04-15T18:46:35Z)
Meta-Adaptive Beam Search Planning for Transformer-Based Reinforcement Learning Control of UAVs with Overhead Manipulators under Flight Disturbances [8.618483849755604]
オーバーヘッドマニピュレータを備えたドローンは、検査、メンテナンス、コンタクトベースのインタラクションにユニークな機能を提供する。ドローンとそのマニピュレータの動作は強く結びついており、風や制御の欠陥による小さな姿勢の変化でさえ、エンドエフェクターを意図した経路から遠ざける。変換器をベースとしたDouble Deep Q Learning (DDQN) を用いた強化学習フレームワークを開発した。これにより、コントローラは実際のモデル上でこれらのアクションを直接実行するのではなく、シミュレーションされたロールアウトを通じてエンドエフェクタの動きを予測できる。
論文参考訳（メタデータ） (2026-03-27T17:08:40Z)
Adaptive Capacity Allocation for Vision Language Action Fine-tuning [30.782665306687992]
視覚言語アクションモデル(VLA)は、物理AIにますます使われているが、未確認環境に事前訓練されたVLAモデルをデプロイするには、まだ適応が必要である。固定ランク更新を入力および層単位のキャパシティに置き換えるランク適応微調整法であるLoRA-SPを提案する。目に見えないAgileX PiPERのアームで収集された4つの実ロボット操作タスクでは、LoRA-SPはトレーニング可能なパラメータがはるかに少ない完全な微調整にマッチするか、超える。
論文参考訳（メタデータ） (2026-03-08T01:33:01Z)
See Less, Drive Better: Generalizable End-to-End Autonomous Driving via Foundation Models Stochastic Patch Selection [51.59559387222532]
エンドツーエンド自動運転の最近の進歩は、パッチアライメント機能で訓練されたポリシーが、アウト・オブ・ディストリビューション(OOD)よりも一般化していることを示している。我々は、より堅牢で、一般化可能で、効率的な学習ポリシーのためのシンプルで効果的なアプローチである2.4-Patch-Selection(SPS)を提案する。
論文参考訳（メタデータ） (2026-01-15T18:58:33Z)
$α^3$-Bench: A Unified Benchmark of Safety, Robustness, and Efficiency for LLM-Based UAV Agents over 6G Networks [3.099103925863002]
3ドルベンチは無人航空機の自律性を評価するためのベンチマークである。各ミッションは、LLMベースのUAVエージェントと人間のオペレータ間の言語経由の制御ループとして定式化される。 UAVBenchシナリオに基づく113kの会話型UAVエピソードの大規模コーパスを構築した。本稿では,タスクアウトカム,安全ポリシ,ツール一貫性,インタラクション品質,ネットワークロバストネス,通信コストの6つの柱を統合した3ドルの複合指標を提案する。
論文参考訳（メタデータ） (2026-01-01T12:07:06Z)
Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail [85.47497935739936]
Alpamayo-R1 (AR1) は、因果推論の連鎖と軌道計画を統合する視覚言語モデルである。また,AR1は,軌道のみのベースラインに比べて,難問の計画精度が12%向上することを示した。今後のアップデートで、AR1モデルとCoCのサブセットをリリースする予定です。
論文参考訳（メタデータ） (2025-10-30T01:25:34Z)
GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文参考訳（メタデータ） (2025-07-24T02:34:13Z)
MULE: Multi-terrain and Unknown Load Adaptation for Effective Quadrupedal Locomotion [1.479858319622657]
四足歩行ロボットは、様々な地形にまたがる荷積み作業にますます利用されている。本研究では,四足歩行ロボットが様々なペイロードと多様な地形に適応できる適応強化学習フレームワークを提案する。提案手法はIsaac Gymの大規模シミュレーション実験と,Unitree Go1の4倍体上での実際のハードウェア展開により検証する。
論文参考訳（メタデータ） (2025-05-01T12:41:35Z)
Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文参考訳（メタデータ） (2024-05-01T17:59:20Z)
Responsive Regulation of Dynamic UAV Communication Networks Based on Deep Reinforcement Learning [16.78151396672782]
我々は、UAVラインアップの今後の変更を識別し、変更に先立ってUAVを移動できる最適なUAV制御ポリシーを開発する。具体的には、時間軸の蓄積されたユーザ満足度(US)スコアを最大化するために、DRLに基づくUAV制御フレームワークを開発する。さらに、連続状態と行動空間を扱うために、アクター批判に基づくDRLであるDeep Deterministic Policy gradient (DDPG)アルゴリズムを利用する。
論文参考訳（メタデータ） (2021-08-25T02:04:13Z)
Efficient UAV Trajectory-Planning using Economic Reinforcement Learning [65.91405908268662]
UAV間でタスクを分散するための経済取引に触発された新しい強化学習アルゴリズムであるREPlannerを紹介します。エージェントが協力し、リソースを競うことができるマルチエージェント経済ゲームとして、パス計画問題を策定します。 UAV協力によるタスク分布の計算を行うため、Swarmサイズの変化に対して非常に耐性が高い。
論文参考訳（メタデータ） (2021-03-03T20:54:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。