論文の概要: STAR: Mitigating Cascading Errors in Spatial Reasoning via Turn-point Alignment and Segment-level DPO
- arxiv url: http://arxiv.org/abs/2604.00558v1
- Date: Wed, 01 Apr 2026 07:02:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.885059
- Title: STAR: Mitigating Cascading Errors in Spatial Reasoning via Turn-point Alignment and Segment-level DPO
- Title(参考訳): STAR:ターンポイントアライメントとセグメントレベルDPOによる空間推論におけるカスケード誤差の軽減
- Authors: Pukun Zhao, Longxiang Wang, Chen Chen, Peicheng Wang, Fanqing Zhou, Runze Li, Haojian Huang,
- Abstract要約: 構造化空間ナビゲーションは大規模言語モデル(LLM)のコアベンチマークである
トポロジカルアンカーに基づく2段階のフレームワークSTARを提案し,人間にヒントを得たターンポイントアノテーションを備えたRedMaze-23Kデータセットを提案する。
実験により、STARはオープンソースモデル間で最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 10.485159771187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structured spatial navigation is a core benchmark for Large Language Models (LLMs) spatial reasoning. Existing paradigms like Visualization-of-Thought (VoT) are prone to cascading errors in complex topologies. To solve this, we propose STAR, a two-stage framework grounded on topological anchors, and introduce the RedMaze-23K dataset with human-inspired turnpoint annotations. The first stage uses supervised fine-tuning to help models internalize spatial semantics and prune redundant paths. The second adopts Spatial-aware Segment-level Direct Preference Optimization (SDPO) to refine self-correction in long-horizon navigation. Experiments show STAR achieves state-of-the-art performance among open-source models: its 32B variant outperforms DeepSeek-V3 (29.27% vs. 25.00%) and reaches 82.4% of GPT-4's performance.
- Abstract(参考訳): 構造化空間ナビゲーションは、LLM(Large Language Models)空間推論のコアベンチマークである。
既存のVoT(VoT)のようなパラダイムは、複雑なトポロジでエラーをカスケードする傾向がある。
そこで我々は,トポロジカルアンカーを基盤とした2段階フレームワークSTARを提案し,人間にヒントを得たターンポイントアノテーションを備えたRedMaze-23Kデータセットを提案する。
第1段階では、教師付き微調整を使用して、モデルが空間的意味論や冗長な経路を内部化するのを助ける。
2つ目は、空間認識のセグメントレベル直接参照最適化(SDPO)を採用し、長距離ナビゲーションにおける自己補正を洗練させる。
32BはDeepSeek-V3(29.27%対25.00%)を上回り、GPT-4のパフォーマンスの82.4%に達する。
関連論文リスト
- From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation [0.7734726150561086]
Object-Goal Navigation(ObjectNav)は、エージェントが未知の環境で対象のオブジェクトカテゴリを見つけてナビゲートする必要がある。
我々は,LLMに基づく意味推論とハイブリッドトポロジカルグリッドマッピングシステムを統合することにより,リアクティブAIから"マップベースAI"への移行を提案する。
本フレームワークでは,Llama-2モデルを用いて,言語化された対象観測から意味領域のカテゴリと目的存在確率を推定する。
論文 参考訳(メタデータ) (2026-03-09T08:27:28Z) - TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - Nav-$R^2$ Dual-Relation Reasoning for Generalizable Open-Vocabulary Object-Goal Navigation [67.68165784193556]
Nav-$R2$は、ターゲット環境モデリングと環境行動計画という2つのタイプの関係を明示的にモデル化するフレームワークである。
我々のSA-Memは、時間的・意味的両面から最も標的に関連し、現在の観測関連の特徴を保っている。
Nav-R2は、合理化され効率的なパイプラインを通して見えないオブジェクトをローカライズする、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-12-02T04:21:02Z) - Fine-Grained Representation for Lane Topology Reasoning [9.999635859285341]
微粒レーントポロジー推論フレームワーク(TopoFG)を提案する。
鳥眼ビュー(Bird's-eye-view, BEV)機能から, きめ細かいクエリによるトポロジー予測に分解する。
OLSは48.0でサブセットAは48.0、サブセットBは45.4である。
論文 参考訳(メタデータ) (2025-11-16T13:24:30Z) - STRIDER: Navigation via Instruction-Aligned Structural Decision Space Optimization [73.98141357780032]
VLN-CEタスクでは、エージェントはシーン固有のトレーニングなしで自然言語命令を使用して3D環境をナビゲートする必要がある。
既存の方法は、構造化された意思決定の欠如と、以前の行動からのフィードバックの不十分な統合のために、堅牢なナビゲーションを達成できないことが多い。
STRIDERは,空間配置先と動的タスクフィードバックを統合し,エージェントの決定空間を体系的に最適化する新しいフレームワークである。
提案手法では,1)空間構造を介して行動空間を制約する構造的ウェイポイントジェネレータ,2)タスクの進行に応じて行動を調整するタスク調整レギュレータ,そしてナビゲーション全体を通して意味的アライメントを確保する。
論文 参考訳(メタデータ) (2025-10-27T04:37:21Z) - DAgger Diffusion Navigation: DAgger Boosted Diffusion Policy for Vision-Language Navigation [73.80968452950854]
Vision-Language Navigation in Continuous Environments (VLN-CE) は、エージェントが自由形式の3D空間を通して自然言語の指示に従う必要がある。
既存のVLN-CEアプローチは通常、2段階のウェイポイント計画フレームワークを使用する。
本稿では,エンドツーエンド最適化VLN-CEポリシとしてDAgger Diffusion Navigation (DifNav)を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:51:43Z) - Semantic-decoupled Spatial Partition Guided Point-supervised Oriented Object Detection [28.454610238715347]
SSP(Semantic-Decoupled Spatial Partition)は、ルール駆動の事前注入とデータ駆動のラベルの精製を相乗化するための統合フレームワークである。
具体的には、1) 画素レベルの空間分割に基づくサンプル割り当て(SSP) オブジェクトスケールの上下境界をコンパクトに推定し、ピクセルマップの空間分割を通じて高品質な正サンプルと強負サンプルをマイニングする。
論文 参考訳(メタデータ) (2025-06-12T11:44:34Z) - On the Role of Bidirectionality in Language Model Pre-Training [85.14614350372004]
本研究では,次のトークン予測,テキスト入力,ゼロショットプライミング,微調整における双方向性の役割について検討する。
最大6.7Bのパラメータを持つモデルをトレーニングし、スケールで一貫性のある相違点を見つけます。
論文 参考訳(メタデータ) (2022-05-24T02:25:05Z) - PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation [111.7241018610573]
私たちは、インスタンスセグメンテーションのための新しいエンドツーエンドボトムアップアーキテクチャであるPointGroupを紹介します。
我々は2分岐ネットワークを設計し、ポイントの特徴を抽出し、セマンティックラベルとオフセットを予測し、各ポイントをそれぞれのインスタンスセントロイドに向けてシフトさせる。
クラスタリングコンポーネントは、元のおよびオフセットシフトされた点座標セットの両方を利用するために、その相補的な強度を利用する。
ScanNet v2 と S3DIS の2つの挑戦的データセットに対する広範な実験を行い、ScanNet v2 と S3DIS が最も高い性能を達成し、63.6% と 64.0% の2つを以前のベストが達成した54.9% と54.4% と比較した。
論文 参考訳(メタデータ) (2020-04-03T16:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。