Fugu-MT 論文翻訳(概要): Multi-Robot Motion Planning from Vision and Language using Heat-Inspired Diffusion

論文の概要: Multi-Robot Motion Planning from Vision and Language using Heat-Inspired Diffusion

arxiv url: http://arxiv.org/abs/2512.13090v1
Date: Mon, 15 Dec 2025 08:43:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:40.345873
Title: Multi-Robot Motion Planning from Vision and Language using Heat-Inspired Diffusion
Title（参考訳）: 熱誘導拡散を用いた視覚・言語からのマルチロボット運動計画
Authors: Jebeom Chae, Junwoo Chang, Seungho Yeom, Yujin Kim, Jongeun Choi,
Abstract要約: Language-Conditioned Heat-Inspired Diffusion (LCHD)は、言語条件の衝突のない軌道を生成するエンドツーエンドのビジョンベースのフレームワークである。 LCHDはCLIPベースのセマンティックプリエントと衝突回避拡散カーネルを統合し、物理的誘導バイアスとして機能する。 LCHDは、計画遅延を減らしながら、相変わらず拡散ベースのプランナーを成功率で上回る。
参考スコア（独自算出の注目度）: 6.286759951136632
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Diffusion models have recently emerged as powerful tools for robot motion planning by capturing the multi-modal distribution of feasible trajectories. However, their extension to multi-robot settings with flexible, language-conditioned task specifications remains limited. Furthermore, current diffusion-based approaches incur high computational cost during inference and struggle with generalization because they require explicit construction of environment representations and lack mechanisms for reasoning about geometric reachability. To address these limitations, we present Language-Conditioned Heat-Inspired Diffusion (LCHD), an end-to-end vision-based framework that generates language-conditioned, collision-free trajectories. LCHD integrates CLIP-based semantic priors with a collision-avoiding diffusion kernel serving as a physical inductive bias that enables the planner to interpret language commands strictly within the reachable workspace. This naturally handles out-of-distribution scenarios -- in terms of reachability -- by guiding robots toward accessible alternatives that match the semantic intent, while eliminating the need for explicit obstacle information at inference time. Extensive evaluations on diverse real-world-inspired maps, along with real-robot experiments, show that LCHD consistently outperforms prior diffusion-based planners in success rate, while reducing planning latency.
Abstract（参考訳）: 拡散モデルは, 実現可能な軌道のマルチモーダル分布を捉えることで, ロボット運動計画のための強力なツールとして最近登場した。しかし、柔軟な言語条件のタスク仕様を持つマルチロボット設定への拡張は、まだ限られている。さらに、現在の拡散に基づくアプローチは、環境表現の明示的な構築を必要とし、幾何学的到達性について推論するメカニズムが欠如していることから、推論と一般化の難しさの間に高い計算コストを発生させる。これらの制約に対処するため、言語条件付き衝突のない軌道を生成するエンドツーエンドの視覚ベースのフレームワークであるLanguage-Conditioned Heat-Inspired Diffusion (LCHD)を提案する。 LCHDはCLIPベースのセマンティックプリエントと衝突回避拡散カーネルを統合し、プランナーが言語コマンドを到達可能なワークスペース内で厳密に解釈できるようにする。これにより、ロボットにセマンティックインテントにマッチするアクセス可能な代替手段を誘導し、推論時に明示的な障害物情報を不要にすることで、配布外シナリオ(リーチビリティの観点から)を自然に処理できる。多様な実世界のインスパイアされたマップに対する広範囲な評価は、実際のロボット実験とともに、LCHDは、計画遅延を低減しつつ、常に拡散ベースのプランナーを成功率で上回っていることを示している。

関連論文リスト

KnowDiffuser: A Knowledge-Guided Diffusion Planner with LM Reasoning and Prior-Informed Trajectory Initialization [8.04458701181863]
KnowDiffuserは知識誘導型モーションプランニングフレームワークである。言語モデルの意味的理解と拡散モデルの生成力を統合する。これは、オープンループとクローズループの両方の評価において、既存のプランナーを著しく上回っている。
論文参考訳（メタデータ） (2026-03-11T05:45:29Z)
Efficient and Explainable End-to-End Autonomous Driving via Masked Vision-Language-Action Diffusion [23.834662472392694]
Masked Vision-Language-Action Diffusion for Autonomous Driving (MVLAD-AD)は、効率的な計画と意味論的説明のギャップを埋める新しいフレームワークである。本稿では,実世界の運転分布から,運動的に実現可能なウェイポイントのコンパクトなコードブックを構築するための,離散的なアクショントークン化戦略を提案する。 nuScenesおよび派生ベンチマークの実験により、MVLAD-ADはより優れた効率を実現し、計画精度において最先端の自己回帰的および拡散的ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2026-02-24T05:59:10Z)
LLM-Grounded Dynamic Task Planning with Hierarchical Temporal Logic for Human-Aware Multi-Robot Collaboration [17.886091169216538]
大規模言語モデル(LLM)は、オープンワールドのマルチロボットタスクを非専門家が指定できるようにする。 LLMの計画は実現性に欠けることが多く、特に長期のシナリオでは効率的ではない。階層的仕様の推論を基礎としたニューロシンボリックな枠組みを提案する。
論文参考訳（メタデータ） (2026-02-10T07:11:36Z)
LaST$_{0}$: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model [102.60980325911106]
潜在時空間連鎖(CoT)を介して行動する前に効率的に推論できるフレームワークを提案する。具体的には,未来の視覚力学,3次元構造情報,ロボットの受容状態をモデル化したトークン効率の潜在CoT空間を導入し,時間的に一貫した暗黙的推論軌道を可能にするためにこれらの表現をさらに拡張する。
論文参考訳（メタデータ） (2026-01-08T18:59:53Z)
Stable Language Guidance for Vision-Language-Action Models [62.80963701282789]
残留セマンティックステアリング(Residual Semantic Steering)は、セマンティック実行から身体的余裕を逸脱する確率的フレームワークである。 RSSは最先端の堅牢性を実現し、敵対的な言語摂動の下でも性能を維持する。
論文参考訳（メタデータ） (2026-01-07T16:16:10Z)
Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。 G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文参考訳（メタデータ） (2025-10-09T09:08:33Z)
Grounding Language Models with Semantic Digital Twins for Robotic Planning [6.474368392218828]
セマンティック・デジタル・ツインズ(SDT)とLarge Language Models(LLM)を統合する新しいフレームワークを提案する。提案フレームワークは,高レベル推論とセマンティック環境理解を効果的に組み合わせ,不確実性と障害に直面した信頼性の高いタスク完了を実現する。
論文参考訳（メタデータ） (2025-06-19T17:38:00Z)
Efficient Speech Language Modeling via Energy Distance in Continuous Latent Space [74.12387631212609]
本稿では、音声波形を連続的な潜在表現の列に符号化することで、音声言語モデリングの代替手法であるSLEDを紹介する。 SLEDは離散化エラーを回避し、既存の言語モデルに共通する複雑な階層アーキテクチャの必要性を排除する。実験結果から,SLEDはゼロショット音声合成とストリーミング音声合成の両方において高い性能を発揮することが示された。
論文参考訳（メタデータ） (2025-05-19T14:38:59Z)
Simultaneous Multi-Robot Motion Planning with Projected Diffusion Models [57.45019514036948]
MRMP拡散(MRMP Diffusion, SMD)は, 制約付き最適化を拡散サンプリングプロセスに統合し, 衝突のない, キネマティックに実現可能な軌道を生成する新しい手法である。本稿では, ロボット密度, 障害物の複雑度, 動作制約の異なるシナリオ間の軌道計画アルゴリズムを評価するための総合的MRMPベンチマークを提案する。
論文参考訳（メタデータ） (2025-02-05T20:51:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。