論文の概要: MAVEN-T: Multi-Agent enVironment-aware Enhanced Neural Trajectory predictor with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.10169v1
- Date: Sat, 11 Apr 2026 11:34:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.887168
- Title: MAVEN-T: Multi-Agent enVironment-aware Enhanced Neural Trajectory predictor with Reinforcement Learning
- Title(参考訳): MAVEN-T:強化学習を用いたマルチエージェント・エンビヨンメント対応強化ニューラルトラジェクトリ予測器
- Authors: Wenchang Duan,
- Abstract要約: MAVEN-Tは、最先端の軌跡予測を実現する教師学習フレームワークである。
伝統的な蒸留の模擬天井を克服するために強化学習が組み込まれている。
NGSIMと高次元データセットの実験では、6.2倍のパラメータ圧縮と3.7倍の推論速度が示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trajectory prediction remains a critical yet challenging component in autonomous driving systems, requiring sophisticated reasoning capabilities while meeting strict real-time deployment constraints. While knowledge distillation has demonstrated effectiveness in model compression, existing approaches often fail to preserve complex decision-making capabilities, particularly in dynamic multi-agent scenarios. This paper introduces MAVEN-T, a teacher-student framework that achieves state-of-the-art trajectory prediction through complementary architectural co-design and progressive distillation. The teacher employs hybrid attention mechanisms for maximum representational capacity, while the student uses efficient architectures optimized for deployment. Knowledge transfer is performed via multi-granular distillation with adaptive curriculum learning that dynamically adjusts complexity based on performance. Importantly, the framework incorporates reinforcement learning to overcome the imitation ceiling of traditional distillation, enabling the student to verify, refine, and optimize teacher knowledge through dynamic environmental interaction, potentially achieving more robust decision-making than the teacher itself. Extensive experiments on NGSIM and highD datasets demonstrate 6.2x parameter compression and 3.7x inference speedup while maintaining state-of-the-art accuracy, establishing a new paradigm for deploying sophisticated reasoning models under resource constraints.
- Abstract(参考訳): 軌道予測は、厳格なリアルタイムデプロイメント制約を満たしながら洗練された推論能力を必要とする自律運転システムにおいて、依然として重要かつ困難なコンポーネントである。
知識蒸留はモデル圧縮において有効性を示してきたが、既存の手法は複雑な意思決定能力、特に動的マルチエージェントシナリオの維持に失敗することが多い。
本稿では, 相補的共同設計と漸進的蒸留により, 最先端の軌道予測を実現する教師学習フレームワークMAVEN-Tを紹介する。
教師は最大表現能力のためにハイブリッドアテンション機構を使用し、学生は配置に最適化された効率的なアーキテクチャを使用する。
知識伝達は多粒質蒸留によって行われ、適応的なカリキュラム学習により、性能に基づいて複雑性を動的に調整する。
重要なことに、このフレームワークは強化学習を取り入れ、従来の蒸留の模倣天井を克服し、動的環境相互作用を通じて教師の知識を検証、洗練、最適化し、教師自身よりも堅牢な意思決定を達成できる可能性がある。
NGSIMと高次元データセットの大規模な実験は、最新の精度を維持しながら6.2倍のパラメータ圧縮と3.7倍の推論スピードアップを示し、リソース制約の下で洗練された推論モデルをデプロイするための新しいパラダイムを確立した。
関連論文リスト
- LLM-Guided Knowledge Distillation for Temporal Knowledge Graph Reasoning [8.96967435213864]
時間的知識グラフ推論に特化して設計されたLLM支援蒸留フレームワークを提案する。
提案手法は強い蒸留ベースライン上でのリンク予測性能を一貫して改善する。
その結果,資源効率のよいTKGシステムへの時間的推論能力の移譲に有効な教師として,大規模言語モデルの可能性を浮き彫りにした。
論文 参考訳(メタデータ) (2026-02-16T03:27:50Z) - Knowledge Distillation for Temporal Knowledge Graph Reasoning with Large Language Models [8.46502493796591]
時間的知識グラフ(TKG)に対する推論は、インテリジェントな意思決定システムの効率性と信頼性の向上に不可欠である。
既存のTKG推論モデルは通常、大きなパラメータサイズと集中的な計算に依存している。
本稿では,時間的知識グラフ推論に適した蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-01T04:38:00Z) - AdaSwitch: Adaptive Switching Generation for Knowledge Distillation [58.647880811071495]
スモール言語モデル(SLM)は、厳密な待ち時間と計算制約のあるアプリケーションには不可欠である。
トークンレベルでのオン・ポリティクスとオフ・ポリティクス・ジェネレーションを組み合わせた新しいアプローチであるAdaSwitchを提案する。
AdaSwitchは一貫して精度を向上し、SLMを蒸留するための実用的で効果的な方法を提供し、追加のオーバーヘッドを許容する。
論文 参考訳(メタデータ) (2025-10-09T06:38:37Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - AIMatDesign: Knowledge-Augmented Reinforcement Learning for Inverse Materials Design under Data Scarcity [5.660883851948541]
AIMatDesignは、逆設計手法のための強化学習フレームワークである。
信頼されたエクスペリエンスプールを構築し、モデルの収束を加速します。
発見効率、収束速度、成功率において、従来の機械学習および強化学習手法を大幅に上回っている。
論文 参考訳(メタデータ) (2025-06-17T08:17:44Z) - Structured Agent Distillation for Large Language Model [56.38279355868093]
本研究では,LLMをベースとした大規模エージェントを小さな学生モデルに圧縮するフレームワークであるStructured Agent Distillationを提案する。
提案手法は, [REASON] と [ACT] にトラジェクトリを分割し, 各コンポーネントを教師の行動に合わせるためにセグメント特異的な損失を適用した。
ALFWorld、HotPotQA-ReAct、WebShopの実験は、我々のアプローチがトークンレベルと模倣学習のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-20T02:01:55Z) - Self-Controlled Dynamic Expansion Model for Continual Learning [10.447232167638816]
本稿では, 自己制御型動的拡張モデル(SCDEM)を提案する。
SCDEMは複数のトレーニング可能なトレーニング済みのViTバックボーンを編成し、多様で意味的に豊かな表現を提供する。
提案手法の有効性を評価するため,幅広い実験が実施されている。
論文 参考訳(メタデータ) (2025-04-14T15:22:51Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate
Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。
本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。
提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文 参考訳(メタデータ) (2022-06-07T13:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。