論文の概要: Inferring Turn-Rate-Limited Engagement Zones with Sacrificial Agents for Safe Trajectory Planning
- arxiv url: http://arxiv.org/abs/2602.13457v1
- Date: Fri, 13 Feb 2026 21:03:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.451172
- Title: Inferring Turn-Rate-Limited Engagement Zones with Sacrificial Agents for Safe Trajectory Planning
- Title(参考訳): 安全軌道計画のための補助剤を用いたターンレート制限エンゲージメントゾーンの推定
- Authors: Grant Stagg, Cameron K. Peterson,
- Abstract要約: 本稿では,犠牲エージェントを用いたターンレート限定追従回避シナリオにおける追従パラメータ推定のためのフレームワークを提案する。
2つの定式化が導入された: RR境界で捕獲が行われる境界受容ケースと、その中のどこにでも捕獲できる内部受容ケースである。
モンテカルロの実験では、5から12の犠牲剤による正確なパラメータ回復が示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a learning-based framework for estimating pursuer parameters in turn-rate-limited pursuit-evasion scenarios using sacrificial agents. Each sacrificial agent follows a straight-line trajectory toward an adversary and reports whether it was intercepted or survived. These binary outcomes are related to the pursuer's parameters through a geometric reachable-region (RR) model. Two formulations are introduced: a boundary-interception case, where capture occurs at the RR boundary, and an interior-interception case, which allows capture anywhere within it. The pursuer's parameters are inferred using a gradient-based multi-start optimization with custom loss functions tailored to each case. Two trajectory-selection strategies are proposed for the sacrificial agents: a geometric heuristic that maximizes the spread of expected interception points, and a Bayesian experimental-design method that maximizes the D-score of the expected Gauss-Newton information matrix, thereby selecting trajectories that yield maximal information gain. Monte Carlo experiments demonstrate accurate parameter recovery with five to twelve sacrificial agents. The learned engagement models are then used to generate safe, time-optimal paths for high-value agents that avoid all feasible pursuer engagement regions.
- Abstract(参考訳): 本稿では,犠牲エージェントを用いたターンレート限定追従回避シナリオにおける追従パラメータ推定のための学習ベースフレームワークを提案する。
それぞれの犠牲エージェントは、敵に向かって直線的な軌道を辿り、それが傍受されたか、生き残ったかを報告する。
これらのバイナリ結果は、幾何学的リーチ可能領域(RR)モデルを通じて、トラッカーのパラメータと関係している。
2つの定式化が導入された: RR境界で捕獲が行われる境界受容ケースと、その中のどこにでも捕獲できる内部受容ケースである。
トラッカーのパラメータは、各ケースに合わせてカスタマイズされたカスタム損失関数を備えた勾配に基づくマルチスタート最適化を用いて推測される。
2つのトラジェクトリ選択戦略が犠牲エージェントに対して提案され、期待されるインターセプション点の広がりを最大化する幾何学的ヒューリスティックと、期待されるガウス・ニュートン情報行列のDスコアを最大化するベイズ的実験的設計法により、最大情報ゲインを得るトラジェクトリを選択する。
モンテカルロの実験では、5から12の犠牲剤による正確なパラメータ回復が示されている。
学習されたエンゲージメントモデルは、すべての実行可能なエンゲージメント領域を避けるために、高価値エージェントに対して安全で時間に最適化されたパスを生成するために使用される。
関連論文リスト
- TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Enhancing Adversarial Transferability by Balancing Exploration and Exploitation with Gradient-Guided Sampling [82.52485740425321]
アドリアックは、ディープニューラルネットワークの堅牢性にとって重要な課題である。
敵攻撃の伝達性は、爆発(最大攻撃能力)と探索(クロスモデル一般化の促進)のジレンマに直面している
論文 参考訳(メタデータ) (2025-11-01T05:43:47Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - Foresight in Motion: Reinforcing Trajectory Prediction with Reward Heuristics [34.570579623171476]
The First Reasoning, Then Forecasting”は、行動意図を軌道予測のための空間的ガイダンスとして明示的に組み込む戦略である。
本稿では,新しいクエリ中心の逆強化学習方式を基礎とした,解釈可能な報酬駆動型意図推論手法を提案する。
提案手法は軌道予測の信頼性を著しく向上させ,最先端手法と比較して高い競争性能を実現する。
論文 参考訳(メタデータ) (2025-07-16T09:46:17Z) - Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Performative Prediction with Bandit Feedback: Learning through Reparameterization [23.039885534575966]
行動予測は、データの分布自体がモデルの展開に応じて変化する社会予測を研究するためのフレームワークである。
本研究では,実行予測目標をデータ分散関数として再パラメータ化する再パラメータ化を開発する。
論文 参考訳(メタデータ) (2023-05-01T21:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。