論文の概要: Geometry-Aligned LLM Fine-Tuning for Sequential Narrow-Opening Planning
- arxiv url: http://arxiv.org/abs/2603.16028v1
- Date: Tue, 17 Mar 2026 00:24:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.885393
- Title: Geometry-Aligned LLM Fine-Tuning for Sequential Narrow-Opening Planning
- Title(参考訳): 図形アライメントLLMファインチューニングによるシークエンシャルナローニング計画
- Authors: Al Jaber Mahmud, Xuan Wang,
- Abstract要約: 複数の狭い開口部を通した剛体運動計画について検討した。
そこで本研究では,幾何整合型大規模言語モデル(LLM)の微調整フレームワークを提案する。
本手法は,流通環境とアウト・オブ・ディストリビューション環境の両方において,最も高い成功率を達成する。
- 参考スコア(独自算出の注目度): 6.579320299248572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study rigid-body motion planning through multiple sequential narrow openings, which requires long-horizon geometric reasoning because the configuration used to traverse an early opening constrains the set of reachable configurations for subsequent ones. To achieve this, we propose a geometry-aligned large language model (LLM) fine-tuning framework that generates fixed-length, machine-readable waypoint sequences that are both geometrically feasible and coordinated across openings. Our approach uses a bi-level training pipeline. First, we perform failure-driven LoRA supervised fine-tuning (SFT) on human demonstrations, which incorporates structured failure feedback to teach the model common failure modes and enforce the output format. Second, we refine the same LoRA adapters using Group Relative Policy Optimization (GRPO) with geometric verification: each sampled waypoint sequence is densified by a model-based planner and scored with a deterministic geometry-derived reward to achieve continuous-motion feasibility. To validate the effectiveness of our proposed method, we provide both quantitative and qualitative results from simulations. Our method achieves the highest success rate in both in-distribution and out-of-distribution environments and qualitatively exhibits long-horizon geometric reasoning by selecting exit poses that facilitate entry into subsequent openings.
- Abstract(参考訳): 複数の狭い開口部による剛体運動計画について検討した。これは、初期開口部を横切るために使用される構成が、その後の開口部に対して到達可能な構成のセットに制約を与えるため、長い水平幾何学的推論を必要とする。
そこで本研究では,幾何学的に実現可能で,開口部をまたいで調整可能な,長さが固定長で機械可読なウェイポイントシーケンスを生成する,幾何整列型大規模言語モデル(LLM)の微調整フレームワークを提案する。
このアプローチでは、双方向のトレーニングパイプラインを使用します。
まず、構造化された障害フィードバックを組み込んで、モデル共通の障害モードを教え、出力フォーマットを強制する、ヒューマンデモにおいて、障害駆動型LoRAによる微調整(SFT)を行う。
第2に,グループ相対ポリシー最適化 (GRPO) を用いた同一のLORAアダプタを幾何的検証により洗練し,各サンプルのウェイポイントシーケンスをモデルベースプランナーで密度化し,決定論的幾何学的報酬を付与して連続運動の実現性を実現する。
提案手法の有効性を検証するため,シミュレーションによる定量的および定性的な結果を提供する。
本手法は,配当環境と配当環境の双方において,最も高い成功率を達成し,その後の開口部への進入を容易にする出口ポーズを選択することで,長期的幾何学的推論を定性的に示す。
関連論文リスト
- Score-Guided Proximal Projection: A Unified Geometric Framework for Rectified Flow Editing [1.0312968200748118]
Rectified Flowモデルは最先端の世代品質を実現するが、正確なタスクのためにそれらを制御することは依然として困難である。
現在のアプローチは「幾何学的ロック」に苦しむ逆法に基づくガイダンスに分岐する
Score-Guided Proximal Projectionは,決定論的最適化と縮尺サンプリングのギャップを埋める統一フレームワークである。
論文 参考訳(メタデータ) (2026-03-05T23:44:45Z) - Orthogonalized Policy Optimization:Decoupling Sampling Geometry from Optimization Geometry in RLHF [0.0]
大規模言語モデルアライメントの目的はしばしば、PPO、DPO、IPO、およびそれらの変種といった、異なるアルゴリズムの集合として提示される。
この研究において、この多様性はより単純な基盤構造を曖昧にしていると論じる。
この絡み合いは、単にモデリングの利便性ではなく、体系的な不安定性の源であることを示す。
論文 参考訳(メタデータ) (2026-01-18T13:57:44Z) - FoundationSLAM: Unleashing the Power of Depth Foundation Models for End-to-End Dense Visual SLAM [50.9765003472032]
FoundationSLAMは、正確でロバストな追跡とマッピングのための学習ベースの単分子高密度SLAMシステムである。
我々の中核となる考え方は、基礎深度モデルからのガイダンスを活用することによって、推論によるフロー推定をブリッジすることである。
論文 参考訳(メタデータ) (2025-12-31T17:57:45Z) - Parallel Test-Time Scaling for Latent Reasoning Models [58.428340345068214]
並列テスト時間スケーリング(TTS)は、大規模言語モデル(LLM)の拡張のための重要なアプローチである。
連続ベクトル空間において中間的推論が展開する潜在的推論の最近の進歩は、明示的なチェーン・オブ・サート(Chain-of-Thought)に対するより効率的な代替手段を提供する。
この作業は、上記の問題に対処することで、潜在推論モデルに対する並列TSを可能にする。
論文 参考訳(メタデータ) (2025-10-09T03:33:00Z) - DecoupleSearch: Decouple Planning and Search via Hierarchical Reward Modeling [56.45844907505722]
二重値モデルを用いて計画と探索プロセスを分離するフレームワークであるDecoupleSearchを提案する。
提案手法は,各ノードが計画と探索のステップを表す推論木を構築する。
推論中、階層的ビームサーチは、計画と探索候補を二重値モデルで反復的に洗練する。
論文 参考訳(メタデータ) (2025-09-07T13:45:09Z) - GeometryZero: Improving Geometry Solving for LLM with Group Contrastive Policy Optimization [63.107398132743825]
Group Contrastive Policy Optimization(GCPO)は、2つの重要なイノベーションを特徴とする新しい強化学習フレームワークである。
我々はGeometryZeroを開発した。GeometryZeroは、手頃なサイズの幾何学的推論モデルで、補助的な建設をいつ行うべきかを判断する。
論文 参考訳(メタデータ) (2025-06-08T14:18:15Z) - Inference-Time Scaling of Discrete Diffusion Models via Importance Weighting and Optimal Proposal Design [17.7006862812979]
本稿では、離散拡散モデルのスケーラブルな推論時間制御を可能にするシークエンシャルモンテカルロフレームワークを提案する。
具体的には,様々な中間目標に対するトラクタブルな重み付けを導出し,最適提案を特徴付ける。
合成タスク,言語モデリング,生物学設計,テキスト・ツー・イメージ生成といった実験結果から,我々のフレームワークが制御性やサンプルの品質を向上させることを示す。
論文 参考訳(メタデータ) (2025-05-28T16:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。