論文の概要: SMc2f: Robust Scenario Mining for Robotic Autonomy from Coarse to Fine
- arxiv url: http://arxiv.org/abs/2601.12010v1
- Date: Sat, 17 Jan 2026 11:25:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.416139
- Title: SMc2f: Robust Scenario Mining for Robotic Autonomy from Coarse to Fine
- Title(参考訳): SMc2f: 粗いものから細かいものまで、ロボット自律性のためのロバストシナリオマイニング
- Authors: Yifei Chen, Ross Greer,
- Abstract要約: RefAVは、大きな言語モデル(LLM)を使用して、空間的かつ時間的にシナリオをローカライズするエンドツーエンドフレームワークである。
SMc2fは、粗い画像テキストフィルタリングに視覚言語モデル(VLM)を使用するパイプラインである。
公開データセットの実験は、検索品質と効率の両方において、かなりの向上を示している。
- 参考スコア(独自算出の注目度): 8.662817298688147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The safety validation of autonomous robotic vehicles hinges on systematically testing their planning and control stacks against rare, safety-critical scenarios. Mining these long-tail events from massive real-world driving logs is therefore a critical step in the robotic development lifecycle. The goal of the Scenario Mining task is to retrieve useful information to enable targeted re-simulation, regression testing, and failure analysis of the robot's decision-making algorithms. RefAV, introduced by the Argoverse team, is an end-to-end framework that uses large language models (LLMs) to spatially and temporally localize scenarios described in natural language. However, this process performs retrieval on trajectory labels, ignoring the direct connection between natural language and raw RGB images, which runs counter to the intuition of video retrieval; it also depends on the quality of upstream 3D object detection and tracking. Further, inaccuracies in trajectory data lead to inaccuracies in downstream spatial and temporal localization. To address these issues, we propose Robust Scenario Mining for Robotic Autonomy from Coarse to Fine (SMc2f), a coarse-to-fine pipeline that employs vision-language models (VLMs) for coarse image-text filtering, builds a database of successful mining cases on top of RefAV and automatically retrieves exemplars to few-shot condition the LLM for more robust retrieval, and introduces text-trajectory contrastive learning to pull matched pairs together and push mismatched pairs apart in a shared embedding space, yielding a fine-grained matcher that refines the LLM's candidate trajectories. Experiments on public datasets demonstrate substantial gains in both retrieval quality and efficiency.
- Abstract(参考訳): 自律型ロボットの安全性検証は、稀で安全にクリティカルなシナリオに対して、計画と制御スタックを体系的にテストすることに焦点を当てている。
これらの長いイベントを、大規模な現実世界の運転ログからマイニングすることは、ロボット開発ライフサイクルにおける重要なステップである。
シナリオマイニングタスクの目的は、ロボットの意思決定アルゴリズムのターゲット再シミュレーション、回帰テスト、障害解析を可能にする有用な情報を取得することである。
Argoverseチームが導入したRefAVは、大規模言語モデル(LLM)を使用して、自然言語で記述されたシナリオを空間的かつ時間的にローカライズするエンドツーエンドフレームワークである。
しかし、このプロセスは、映像検索の直感に対抗して動作する自然言語と生のRGB画像との直接接続を無視し、軌跡ラベルの検索を行う。
さらに、軌道データの不正確さは下流の空間的および時間的局所化に不正確をもたらす。
これらの問題に対処するため,ロバスト・シナリオ・マイニング for Robotic Autonomy from Coarse to Fine (SMc2f) を提案する。このパイプラインは粗い画像テキストフィルタリングに視覚言語モデル(VLM)を用いた粗いパイプラインであり,RefAV上で成功したマイニングケースのデータベースを構築し,より堅牢な検索のためにLLMを例示的に検索する。
公開データセットの実験は、検索品質と効率の両方において、かなりの向上を示している。
関連論文リスト
- Detect Anything via Next Point Prediction [51.55967987350882]
Rex-Omniは最先端の物体認識性能を実現する3BスケールのMLLMである。
COCOやLVISのようなベンチマークでは、Rex-Omniは回帰ベースのモデルに匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2025-10-14T17:59:54Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - RefAV: Towards Planning-Centric Scenario Mining [45.37155349405482]
伝統的なシナリオマイニング技術はエラーを起こしやすく、非常に時間を要する。
本稿では,1万種類の自然言語クエリの大規模データセットであるRefAVを紹介する。
その結果, ナイール構造を有するオフザシェルフ-Msは, 性能が劣ることがわかった。
論文 参考訳(メタデータ) (2025-05-27T10:14:35Z) - Outlier-Robust Long-Term Robotic Mapping Leveraging Ground Segmentation [1.7948767405202701]
箱から出られる堅牢な長期ロボットマッピングシステムを提案する。
i) 外れ値の存在を否定する高速で頑健な接地分割を提案する。
粗悪なアウトリールの存在を包含する地盤セグメンテーションによるロバストな登録を提案する。
論文 参考訳(メタデータ) (2024-05-18T04:56:15Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - Exploring Dynamic Context for Multi-path Trajectory Prediction [33.66335553588001]
動的コンテキストネットワーク(DCENet)という新しいフレームワークを提案する。
本フレームワークでは,エージェント間の空間的コンテキストを自己注意型アーキテクチャを用いて探索する。
学習した空間的時間的文脈に基づいて、各エージェントに対する将来の軌跡のセットを条件付きで予測する。
論文 参考訳(メタデータ) (2020-10-30T13:39:20Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。