論文の概要: KnowDiffuser: A Knowledge-Guided Diffusion Planner with LM Reasoning and Prior-Informed Trajectory Initialization
- arxiv url: http://arxiv.org/abs/2603.10441v1
- Date: Wed, 11 Mar 2026 05:45:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.665151
- Title: KnowDiffuser: A Knowledge-Guided Diffusion Planner with LM Reasoning and Prior-Informed Trajectory Initialization
- Title(参考訳): KnowDiffuser: LM推論と事前インフォームド軌道初期化を備えた知識誘導拡散プランナ
- Authors: Fan Ding, Xuewen Luo, Fengze Yang, Bo Yu, HwaHui Tew, Ganesh Krishnasamy, Junn Yong Loo,
- Abstract要約: KnowDiffuserは知識誘導型モーションプランニングフレームワークである。
言語モデルの意味的理解と拡散モデルの生成力を統合する。
これは、オープンループとクローズループの両方の評価において、既存のプランナーを著しく上回っている。
- 参考スコア(独自算出の注目度): 8.04458701181863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Language Models (LMs) have demonstrated strong semantic reasoning capabilities, enabling their application in high-level decision-making for autonomous driving (AD). However, LMs operate over discrete token spaces and lack the ability to generate continuous, physically feasible trajectories required for motion planning. Meanwhile, diffusion models have proven effective at generating reliable and dynamically consistent trajectories, but often lack semantic interpretability and alignment with scene-level understanding. To address these limitations, we propose \textbf{KnowDiffuser}, a knowledge-guided motion planning framework that tightly integrates the semantic understanding of language models with the generative power of diffusion models. The framework employs a language model to infer context-aware meta-actions from structured scene representations, which are then mapped to prior trajectories that anchor the subsequent denoising process. A two-stage truncated denoising mechanism refines these trajectories efficiently, preserving both semantic alignment and physical feasibility. Experiments on the nuPlan benchmark demonstrate that KnowDiffuser significantly outperforms existing planners in both open-loop and closed-loop evaluations, establishing a robust and interpretable framework that effectively bridges the semantic-to-physical gap in AD systems.
- Abstract(参考訳): 言語モデル(LM)の最近の進歩は、強力な意味推論能力を示し、自律運転(AD)のためのハイレベルな意思決定に応用できる。
しかし、LMは離散トークン空間上で動作し、運動計画に必要な連続的で物理的に実現可能な軌道を生成する能力が欠如している。
一方、拡散モデルは信頼性と動的に一貫した軌道を生成するのに効果的であることが証明されているが、しばしば意味論的解釈可能性やシーンレベルの理解との整合性が欠如している。
これらの制約に対処するために,言語モデルの意味的理解を拡散モデルの生成力と密に統合する知識誘導型動作計画フレームワークである「textbf{KnowDiffuser}」を提案する。
このフレームワークは言語モデルを用いて、構造化されたシーン表現からコンテキスト認識のメタアクションを推論し、その後、その後の認知プロセスをアンカーする以前の軌跡にマッピングする。
2段階の切り離された分極機構はこれらの軌道を効率的に洗練し、意味的アライメントと物理的実現可能性の両方を保っている。
nuPlanベンチマークの実験では、KnowDiffuserはオープンループとクローズループの両方で既存のプランナーよりも大幅に優れており、ADシステムのセマンティック・物理的ギャップを効果的に橋渡しする堅牢で解釈可能なフレームワークを確立している。
関連論文リスト
- Efficient and Explainable End-to-End Autonomous Driving via Masked Vision-Language-Action Diffusion [23.834662472392694]
Masked Vision-Language-Action Diffusion for Autonomous Driving (MVLAD-AD)は、効率的な計画と意味論的説明のギャップを埋める新しいフレームワークである。
本稿では,実世界の運転分布から,運動的に実現可能なウェイポイントのコンパクトなコードブックを構築するための,離散的なアクショントークン化戦略を提案する。
nuScenesおよび派生ベンチマークの実験により、MVLAD-ADはより優れた効率を実現し、計画精度において最先端の自己回帰的および拡散的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-24T05:59:10Z) - Latent Thoughts Tuning: Bridging Context and Reasoning with Fused Information in Latent Tokens [13.653741247835091]
Latent Thoughts Tuning(LT-Tuning)は、潜在思想の構築とデプロイ方法を再定義するフレームワークである。
本研究では,コンテキスト隠蔽状態と予測意味指導を協調的に活用するコンテキスト予測融合機構を提案する。
提案手法は,既存の潜在推論ベースラインより優れ,機能崩壊を効果的に軽減し,頑健な推論精度を実現する。
論文 参考訳(メタデータ) (2026-02-10T19:19:10Z) - FRISM: Fine-Grained Reasoning Injection via Subspace-Level Model Merging for Vision-Language Models [20.47311573790516]
FRISM(Fine-fine Reasoning Injection via Subspace-level Model Merging)を提案する。
実験により、FRISMはモデルの本来の視覚能力を損なうことなく推論能力を効果的に改善することが示された。
論文 参考訳(メタデータ) (2026-01-29T02:36:19Z) - Top 10 Open Challenges Steering the Future of Diffusion Language Model and Its Variants [85.33837131101342]
本稿では,基盤基盤,アルゴリズム最適化,認知推論,統合マルチモーダルインテリジェンスという4つの柱で構成された戦略ロードマップを提案する。
この移行は、複雑な構造的推論、動的自己補正、シームレスなマルチモーダル統合が可能な次世代AIの開発に不可欠である、と我々は主張する。
論文 参考訳(メタデータ) (2026-01-20T14:58:23Z) - Stable Language Guidance for Vision-Language-Action Models [62.80963701282789]
残留セマンティックステアリング(Residual Semantic Steering)は、セマンティック実行から身体的余裕を逸脱する確率的フレームワークである。
RSSは最先端の堅牢性を実現し、敵対的な言語摂動の下でも性能を維持する。
論文 参考訳(メタデータ) (2026-01-07T16:16:10Z) - Progressive Localisation in Localist LLMs [0.0]
本稿では,解釈可能な大言語モデル(LLM)を作成する上で,プログレッシブローカライゼーションが最適アーキテクチャであることを示す。
本稿では,ネットワーク奥行きを戦略的に適用しながら,解釈可能性制約を自然な意味構造に整合させることができるかを検討する。
本研究では,セマンティックブロックと急激な適応的局所性スケジュールを組み合わせた進行的セマンティックローカライゼーションが,解釈可能な注意パターンを提供しながら,ほぼベースライン言語モデリング性能を実現することを示す。
論文 参考訳(メタデータ) (2025-11-23T09:49:13Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [102.1527101235251]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。
自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。
LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-04-15T17:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。