論文の概要: OT-Drive: Out-of-Distribution Off-Road Traversable Area Segmentation via Optimal Transport
- arxiv url: http://arxiv.org/abs/2601.09952v1
- Date: Thu, 15 Jan 2026 00:23:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.928665
- Title: OT-Drive: Out-of-Distribution Off-Road Traversable Area Segmentation via Optimal Transport
- Title(参考訳): OT-Drive: 最適輸送によるアウト・オブ・ディストリビューション オフ・ロード・トラバータブル・エリア・セグメンテーション
- Authors: Zhihua Zhao, Guoqiang Li, Chen Min, Kangping Lu,
- Abstract要約: OT-Driveは、最適なトランスポート駆動のマルチモーダルフュージョンフレームワークである。
天気, 日時, 道路形態の連帯分布にシーン情報を分解する新しいシーンアンカージェネレータ(SAG)を提案する。
次に、RGBおよび表面正規化特徴を多様体上に輸送する、革新的な最適輸送に基づくマルチモーダル核融合モジュール(OT Fusion)を設計する。
- 参考スコア(独自算出の注目度): 3.9897888172065206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable traversable area segmentation in unstructured environments is critical for planning and decision-making in autonomous driving. However, existing data-driven approaches often suffer from degraded segmentation performance in out-of-distribution (OOD) scenarios, consequently impairing downstream driving tasks. To address this issue, we propose OT-Drive, an Optimal Transport--driven multi-modal fusion framework. The proposed method formulates RGB and surface normal fusion as a distribution transport problem. Specifically, we design a novel Scene Anchor Generator (SAG) to decompose scene information into the joint distribution of weather, time-of-day, and road type, thereby constructing semantic anchors that can generalize to unseen scenarios. Subsequently, we design an innovative Optimal Transport-based multi-modal fusion module (OT Fusion) to transport RGB and surface normal features onto the manifold defined by the semantic anchors, enabling robust traversable area segmentation under OOD scenarios. Experimental results demonstrate that our method achieves 95.16% mIoU on ORFD OOD scenarios, outperforming prior methods by 6.35%, and 89.79% mIoU on cross-dataset transfer tasks, surpassing baselines by 13.99%.These results indicate that the proposed model can attain strong OOD generalization with only limited training data, substantially enhancing its practicality and efficiency for real-world deployment.
- Abstract(参考訳): 自律運転における計画と意思決定には、非構造環境における信頼性の高いトラバース可能な領域分割が不可欠である。
しかし、既存のデータ駆動型アプローチは、アウト・オブ・ディストリビューション(OOD)のシナリオで劣化したセグメンテーション性能に悩まされ、結果として下流の運転タスクを損なう。
この問題に対処するため,我々はOT-Driveという,最適輸送駆動型マルチモーダル融合フレームワークを提案する。
提案手法は分布輸送問題として RGB および表面正規核融合を定式化する。
具体的には,新しいシーンアンカージェネレータ(SAG)を設計し,シーン情報を天気,日時,道路タイプの共同分布に分解し,目に見えないシナリオに一般化可能なセマンティックアンカーを構築する。
続いて,RGBおよび表面の正常な特徴をセマンティックアンカーによって定義された多様体上に輸送し,OODシナリオ下での堅牢なトラバース可能な領域分割を実現するための,革新的な最適輸送型マルチモーダル融合モジュール(OT Fusion)を設計した。
実験の結果, ORFD OODシナリオでは95.16% mIoUが達成され, 従来の手法では6.35%, 89.79% mIoUがベースラインを13.99%超えた。
これらの結果から,提案モデルは訓練データのみを限定して強力なOOD一般化を実現し,実世界の展開における実用性と効率を大幅に向上させることが可能であることが示唆された。
関連論文リスト
- Model Specific Task Similarity for Vision Language Model Selection via Layer Conductance [92.72779885657373]
本稿では,視覚エンコーダの内部関数力学におけるモデル選択の基盤となるフレームワークを提案する。
提案手法は,各タスクをレイヤワイドコンダクタンスにより表現し,エントロピー正規化アライメントによる目標条件付きブロック重要度分布を導出する。
そこで本研究では,DCD(Directional Conductance Divergence)という,ソースタスクが対象の機能ブロックをいかに効果的にカバーするかを定量化する非対称な指標を提案する。
論文 参考訳(メタデータ) (2026-02-01T17:29:43Z) - Optimization-Guided Diffusion for Interactive Scene Generation [52.23368750264419]
本稿では,拡散型サンプリングにおける構造的一貫性と相互作用認識を実現するための,最適化誘導型トレーニングフリーフレームワークであるOMEGAを提案する。
OMEGAは生成リアリズム,一貫性,可制御性を向上し,身体的および行動学的に有効なシーンの比率を増大させることを示す。
当社のアプローチでは,3秒未満の時間対コリションで,より近いコリジョンフレームを5ドル(約5,500円)で生成することも可能だ。
論文 参考訳(メタデータ) (2025-12-08T15:56:18Z) - Model-Based Policy Adaptation for Closed-Loop End-to-End Autonomous Driving [54.46325690390831]
本稿では,事前学習したE2E運転エージェントのロバスト性と安全性を高めるための汎用フレームワークとして,モデルベースポリシー適応(MPA)を提案する。
MPAは、ジオメトリ一貫性のあるシミュレーションエンジンを用いて、まず様々な対物軌道を生成する。
MPAは拡散ベースのポリシーアダプタを訓練し、基本方針の予測を洗練させ、Q値モデルを多段階に分けて長期的な結果を評価する。
論文 参考訳(メタデータ) (2025-11-26T17:01:41Z) - Unifying Environment Perception and Route Choice Modeling for Trajectory Representation Learning [47.00223863430964]
Tray Learning (TRL) は、低次元ベクトルに生の軌跡をエンコードすることを目的としており、旅行時間推定、位置予測、軌道類似性解析など様々な下流タスクに活用できる。
効率的なtextbfPRTrajectory表現学習のための時間的明示的textRoute選択モデルであるtextbfPRTrajを提案する。
論文 参考訳(メタデータ) (2025-10-16T15:55:28Z) - Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z) - TransitReID: Transit OD Data Collection with Occlusion-Resistant Dynamic Passenger Re-Identification [1.5119440099674915]
個人レベルおよび閉塞抵抗性旅客再識別のための新しい枠組みであるTransitReIDを提案する。
この作業は、自動トランジットODコレクションのアルゴリズムとシステムレベルの基盤の両方を前進させる。
論文 参考訳(メタデータ) (2025-04-15T02:09:02Z) - PFSD: A Multi-Modal Pedestrian-Focus Scene Dataset for Rich Tasks in Semi-Structured Environments [73.80718037070773]
本稿では, 半構造化シーンに, nuScenesの形式を付加したマルチモーダルなPedestrian-Focused Sceneデータセットを提案する。
また,密集・隠蔽シナリオにおける歩行者検出のためのHMFN(Hybrid Multi-Scale Fusion Network)を提案する。
論文 参考訳(メタデータ) (2025-02-21T09:57:53Z) - Predictive Planner for Autonomous Driving with Consistency Models [5.966385886363771]
軌道予測と計画は、自動運転車が動的環境下で安全かつ効率的に走行するために不可欠である。
近年の拡散型生成モデルはマルチエージェント軌道生成において有望であるが,その遅いサンプリングは高周波計画タスクには適さない。
我々は,エゴ車両の航法目標に基づいて,エゴと周辺エージェントの共同分布からサンプルを採取する予測プランナを構築するために,一貫性モデルを活用する。
論文 参考訳(メタデータ) (2025-02-12T00:26:01Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Efficient Data Representation for Motion Forecasting: A Scene-Specific Trajectory Set Approach [12.335528093380631]
本研究では,異なる状況に合わせたシーン固有の軌跡セットを生成するための新しい手法を提案する。
決定論的ゴールサンプリングアルゴリズムは関連する地図領域を同定する一方,再帰的分布サブサンプリング (RIDS) 法はトラジェクトリの妥当性を高める。
Argoverse 2データセットの実験では、運転エリアコンプライアンスの最大10%の改善が達成されている。
論文 参考訳(メタデータ) (2024-07-30T11:06:39Z) - A Diffusion-Model of Joint Interactive Navigation [14.689298253430568]
本稿では,交通シナリオを生成する拡散に基づくDJINNを提案する。
我々のアプローチは、過去、現在、未来からのフレキシブルな状態観察のセットに基づいて、全てのエージェントの軌跡を共同で拡散させる。
本稿では,DJINNが様々な条件分布からの直接的テスト時間サンプリングを柔軟に行う方法を示す。
論文 参考訳(メタデータ) (2023-09-21T22:10:20Z) - Transport with Support: Data-Conditional Diffusion Bridges [18.933928516349397]
制約付き時系列データ生成タスクを解決するために,Iterative Smoothing Bridge (ISB)を導入する。
我々は,ISBが高次元データによく一般化し,計算効率が高く,中間時間と終時間における限界値の正確な推定値を提供することを示した。
論文 参考訳(メタデータ) (2023-01-31T13:50:16Z) - MADAv2: Advanced Multi-Anchor Based Active Domain Adaptation
Segmentation [98.09845149258972]
セマンティックセグメンテーションタスクに関するドメイン適応を支援するために,アクティブなサンプル選択を導入する。
これらのサンプルを手動でアノテートする作業量が少ないため、ターゲット領域分布の歪みを効果的に緩和することができる。
長期分布問題を緩和するために、強力な半教師付きドメイン適応戦略を提案する。
論文 参考訳(メタデータ) (2023-01-18T07:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。