論文の概要: Target-Bench: Can World Models Achieve Mapless Path Planning with Semantic Targets?
- arxiv url: http://arxiv.org/abs/2511.17792v1
- Date: Fri, 21 Nov 2025 21:36:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.430355
- Title: Target-Bench: Can World Models Achieve Mapless Path Planning with Semantic Targets?
- Title(参考訳): Target-Bench: 世界モデルはセマンティックターゲットを用いたマップレスパスプランニングを達成できるか?
- Authors: Dingrui Wang, Hongyuan Ye, Zhihao Liang, Zhexiao Sun, Zhaowei Lu, Yuchen Zhang, Yuyu Zhao, Yuan Gao, Marvin Seegert, Finn Schäfer, Haotong Qin, Wei Li, Luigi Palmieri, Felix Jahncke, Mattia Piccinini, Johannes Betz,
- Abstract要約: Target-Benchは、実世界の環境におけるセマンティックターゲットに向けたマップレスパス計画の世界モデルを評価するために設計された最初のベンチマークである。
SLAMに基づく地上真実軌道を用いた45のセマンティックカテゴリにまたがる450のロボットコンパイルビデオシーケンスを提供する。
我々は,Sora 2,Veo 3.1,Wanシリーズなどの最先端モデルを評価する。
- 参考スコア(独自算出の注目度): 25.37180619162052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent world models generate highly realistic videos, their ability to perform robot path planning remains unclear and unquantified. We introduce Target-Bench, the first benchmark specifically designed to evaluate world models on mapless path planning toward semantic targets in real-world environments. Target-Bench provides 450 robot-collected video sequences spanning 45 semantic categories with SLAM-based ground truth trajectories. Our evaluation pipeline recovers camera motion from generated videos and measures planning performance using five complementary metrics that quantify target-reaching capability, trajectory accuracy, and directional consistency. We evaluate state-of-the-art models including Sora 2, Veo 3.1, and the Wan series. The best off-the-shelf model (Wan2.2-Flash) achieves only 0.299 overall score, revealing significant limitations in current world models for robotic planning tasks. We show that fine-tuning an open-source 5B-parameter model on only 325 scenarios from our dataset achieves 0.345 overall score -- an improvement of more than 400% over its base version (0.066) and 15% higher than the best off-the-shelf model. We will open-source the code and dataset.
- Abstract(参考訳): 最近の世界モデルは、非常にリアルなビデオを生成するが、ロボットの経路計画を実行する能力は、まだ不明であり、定かではない。
実世界の環境における意味論的対象に向けたマップレス経路計画における世界モデルを評価するために設計された最初のベンチマークであるTarget-Benchを紹介する。
Target-Benchは、45のセマンティックカテゴリにまたがる450のロボットコンパイルビデオシーケンスとSLAMベースの地上真実軌道を提供する。
評価パイプラインは、生成されたビデオからカメラの動きを復元し、目標到達能力、軌道精度、方向整合性を定量化する5つの相補的指標を用いて、性能を計測する。
我々は,Sora 2,Veo 3.1,Wanシリーズなどの最先端モデルを評価する。
最高のオフ・ザ・シェルフモデル(Wan2.2-Flash)は0.299のスコアしか達成せず、ロボット計画タスクの現在の世界のモデルに重大な制限があることが判明した。
私たちのデータセットからわずか325のシナリオで、オープンソースの5Bパラメータモデルを微調整すると、0.345のスコアが得られます -- ベースバージョン(0.066)よりも400%以上改善され、最高のオフザシェルフモデルよりも15%高いのです。
コードとデータセットをオープンソースにします。
関連論文リスト
- WorldPrediction: A Benchmark for High-level World Modeling and Long-horizon Procedural Planning [52.36434784963598]
我々は、異なるAIモデルのワールドモデリングと手続き計画能力を評価するためのビデオベースのベンチマークであるWorldPredictionを紹介する。
現在のフロンティアモデルでは,WorldPrediction-WMでは57%,WorldPrediction-PPでは38%の精度しか達成できないが,人間は両タスクを完璧に解くことができる。
論文 参考訳(メタデータ) (2025-06-04T18:22:40Z) - BOP Challenge 2024 on Model-Based and Model-Free 6D Object Pose Estimation [55.13521733366838]
一連のパブリックコンペティションの第6回は、6Dオブジェクトでアートの状態をキャプチャするために組織された。
2024年、我々は3Dオブジェクトモデルが利用できず、提供された参照ビデオからのみオブジェクトをオンボードする必要がある新しいモデルフリータスクを導入した。
我々は、テスト画像で見える物体の同一性が入力として提供されない、より実用的な6Dオブジェクト検出タスクを定義した。
論文 参考訳(メタデータ) (2025-04-03T17:55:19Z) - WorldModelBench: Judging Video Generation Models As World Models [57.776769550453594]
ビデオ生成モデルは急速に進歩し、ロボット工学や自動運転といった意思決定アプリケーションをサポートするビデオワールドモデルとしての地位を確立している。
現在のベンチマークでは、これらの主張を厳格に評価することができず、一般的なビデオ品質にのみ焦点が当てられている。
アプリケーション駆動ドメインにおけるビデオ生成モデルのワールドモデリング能力を評価するためのベンチマークであるWorldModelBenchを提案する。
論文 参考訳(メタデータ) (2025-02-28T03:58:23Z) - Beyond One-Size-Fits-All: Tailored Benchmarks for Efficient Evaluation [19.673388630963807]
本論文では,各対象モデルに合わせてカスタマイズした評価を行うTaloredBenchを提案する。
Global-coresetはまず、ターゲットモデル毎に最も一貫性のあるソースモデルを特定するプローブとして構築される。
拡張性のあるK-Medoidsクラスタリングアルゴリズムが提案され、Global-coresetを各ターゲットモデルに適したNative-coresetに拡張する。
論文 参考訳(メタデータ) (2025-02-19T09:31:50Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Sim-to-Real 6D Object Pose Estimation via Iterative Self-training for
Robotic Bin-picking [98.5984733963713]
コスト効率の良いロボットグルーピングを容易にするために,シミュレート・トゥ・リアルな6次元オブジェクトのポーズ推定のための反復的自己学習フレームワークを提案する。
我々は、豊富な仮想データを合成するためのフォトリアリスティックシミュレータを構築し、これを初期ポーズ推定ネットワークのトレーニングに利用する。
このネットワークは教師モデルの役割を担い、未ラベルの実データに対するポーズ予測を生成する。
論文 参考訳(メタデータ) (2022-04-14T15:54:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。