論文の概要: Temporal Action Representation Learning for Tactical Resource Control and Subsequent Maneuver Generation
- arxiv url: http://arxiv.org/abs/2602.18716v1
- Date: Sat, 21 Feb 2026 04:31:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.258336
- Title: Temporal Action Representation Learning for Tactical Resource Control and Subsequent Maneuver Generation
- Title(参考訳): 戦術的資源制御のための時間的行動表現学習とその後のマニバ生成
- Authors: Hoseong Jung, Sungil Son, Daesol Cho, Jonghae Park, Changhyun Choi, H. Jin Kim,
- Abstract要約: TARTは、戦術的資源制御とその後の操作生成のためのテンポラルアクション表現学習フレームワークである。
資源配置が重要となる2つの領域において,TARTを評価する。 (i) 個別行動の限られた予算で機動性が向上する迷路ナビゲーションタスク, (ii) F-16エージェントが飛行操作と協調して兵器や防衛システムを運用する高忠実な空戦シミュレータ。
- 参考スコア(独自算出の注目度): 27.751470976516373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous robotic systems should reason about resource control and its impact on subsequent maneuvers, especially when operating with limited energy budgets or restricted sensing. Learning-based control is effective in handling complex dynamics and represents the problem as a hybrid action space unifying discrete resource usage and continuous maneuvers. However, prior works on hybrid action space have not sufficiently captured the causal dependencies between resource usage and maneuvers. They have also overlooked the multi-modal nature of tactical decisions, both of which are critical in fast-evolving scenarios. In this paper, we propose TART, a Temporal Action Representation learning framework for Tactical resource control and subsequent maneuver generation. TART leverages contrastive learning based on a mutual information objective, designed to capture inherent temporal dependencies in resource-maneuver interactions. These learned representations are quantized into discrete codebook entries that condition the policy, capturing recurring tactical patterns and enabling multi-modal and temporally coherent behaviors. We evaluate TART in two domains where resource deployment is critical: (i) a maze navigation task where a limited budget of discrete actions provides enhanced mobility, and (ii) a high-fidelity air combat simulator in which an F-16 agent operates weapons and defensive systems in coordination with flight maneuvers. Across both domains, TART consistently outperforms hybrid-action baselines, demonstrating its effectiveness in leveraging limited resources and producing context-aware subsequent maneuvers.
- Abstract(参考訳): 自律型ロボットシステムは、特に限られたエネルギー予算や制限されたセンシングで運用する場合、リソース制御とそのその後の操作への影響を推論する必要がある。
学習に基づく制御は複雑な力学を扱うのに有効であり、個別の資源利用と継続的な操作を統一するハイブリッドアクション空間として問題を表現する。
しかし、ハイブリッドアクション空間に関する以前の研究は、資源利用と操作の因果関係を十分に捉えていなかった。
彼らはまた、戦術的な決定のマルチモーダルな性質を見落としている。
本稿では,戦術的資源制御とその後の操作生成のための時間行動表現学習フレームワークであるTARTを提案する。
TARTは相互情報目的に基づくコントラスト学習を活用し、資源と空気の相互作用における時間的依存関係をキャプチャする。
これらの学習された表現は個別のコードブックエントリに量子化され、ポリシーを条件付け、繰り返し発生する戦術パターンをキャプチャし、マルチモーダルかつ時間的に一貫性のある振る舞いを可能にする。
リソース配置が重要となる2つの領域において、TARTを評価する。
一 個別の行動の限られた予算で機動性を高めた迷路航法業務
(II)F-16エージェントが飛行操作と協調して武器や防衛システムを運用する高忠実な空中戦闘シミュレータ。
両方の領域で、TARTはハイブリッドアクションベースラインを一貫して上回り、限られたリソースを活用し、その後の操作をコンテキスト対応で生成する効果を実証している。
関連論文リスト
- Learning Multi-Modal Mobility Dynamics for Generalized Next Location Recommendation [51.00494428978262]
位置推薦タスクの移動力学を特徴付けるために,マルチモーダルな時空間知識を利用する。
まず、マルチモーダル表現のための統合時空間関係グラフ(STRG)を構築する。
第二に、異なるモーダルの空間時間グラフ表現を融合するゲーティング機構を設計する。
論文 参考訳(メタデータ) (2025-12-27T14:23:04Z) - Action-Constrained Imitation Learning [12.316546911223263]
行動制約下での政策学習は、様々なロボット制御や資源配分アプリケーションにおいて、安全な行動を保証する上で中心的な役割を果たす。
本稿では,行動制約付き模倣者がより広い行動空間を持つ実証的専門家から学習することを目的とした,行動制約付き模倣学習(ACIL)と呼ばれる新たな課題について検討する。
我々は、このミスマッチをテキストトラジェクトリアライメント(textittrajectory alignment)を通じて解決し、従来の専門家によるデモンストレーションを、アクション制約に固執しながら、同様の状態軌跡に従うサロゲートデータセットに置き換えるDTWILを提案する。
論文 参考訳(メタデータ) (2025-08-20T03:19:07Z) - Reinforcement Learning for Decision-Level Interception Prioritization in Drone Swarm Defense [51.736723807086385]
本稿では,この課題に対処する上で,強化学習の実践的メリットを示すケーススタディを提案する。
本研究では,現実的な運用制約を捉えた高忠実度シミュレーション環境を提案する。
エージェントは最適なインターセプション優先順位付けのために複数のエフェクターを調整することを学ぶ。
我々は、何百ものシミュレートされた攻撃シナリオにおいて、手作りルールベースのベースラインに対する学習ポリシーを評価する。
論文 参考訳(メタデータ) (2025-08-01T13:55:39Z) - Action Space Reduction Strategies for Reinforcement Learning in Autonomous Driving [0.0]
強化学習(RL)は自動運転のための有望なフレームワークを提供する。
きめ細かい制御を支援するためにしばしば使われる大型で高次元のアクションスペースは、訓練の効率を阻害し、探査コストを増大させる。
我々は、自律運転におけるRLのための2つの新しい構造化された行動空間修正戦略を導入し、評価する。
論文 参考訳(メタデータ) (2025-07-07T17:58:08Z) - RALLY: Role-Adaptive LLM-Driven Yoked Navigation for Agentic UAV Swarms [17.931091064654904]
役割適応型LCM駆動ヨードナビゲーションアルゴリズムをアラリカルに開発する。
RALLYは構造化自然言語を用いて効率的な意味コミュニケーションと協調推論を行う。
実験の結果, タスクカバレッジ, 収束速度, 一般化の点で, 従来手法よりも有意な性能を示した。
論文 参考訳(メタデータ) (2025-07-02T05:44:17Z) - A Policy Iteration Approach for Flock Motion Control [5.419608513284392]
全体的な制御プロセスは、群れの粘着性と局在性を監視しながらエージェントを誘導する。
ここでは、独立したコマンドジェネレータに従うためにエージェント群を誘導するために、オンラインモデルフリーのポリシーイテレーションメカニズムが開発されている。
政策反復機構のシミュレーション結果から,計算労力の少ない高速学習と収束挙動が明らかになった。
論文 参考訳(メタデータ) (2023-03-17T15:04:57Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z) - Enhanced Adversarial Strategically-Timed Attacks against Deep
Reinforcement Learning [91.13113161754022]
本稿では,DRLに基づくナビゲーションシステムに対して,選択した時間フレーム上の物理ノイズパターンを妨害することにより,タイミングに基づく逆方向戦略を導入する。
実験結果から, 対向タイミング攻撃は性能低下を引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2020-02-20T21:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。