論文の概要: A CLIP-based Uncertainty Modal Modeling (UMM) Framework for Pedestrian Re-Identification in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2508.11218v1
- Date: Fri, 15 Aug 2025 04:50:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.75181
- Title: A CLIP-based Uncertainty Modal Modeling (UMM) Framework for Pedestrian Re-Identification in Autonomous Driving
- Title(参考訳): 歩行者の自律運転における再同定のためのCLIPに基づく不確かさモーダルモデリング(UMM)フレームワーク
- Authors: Jialin Li, Shuqi Wu, Ning Wang,
- Abstract要約: Uncertainty Modal Modeling (UMM) フレームワークは、マルチモーダルトークンマッパー、合成モダリティ強化戦略、およびクロスモーダルキュー対話型学習器を統合している。
UMMは、不確実なモード条件下で強い堅牢性、一般化、および計算効率を達成する。
- 参考スコア(独自算出の注目度): 6.223368492604449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Re-Identification (ReID) is a critical technology in intelligent perception systems, especially within autonomous driving, where onboard cameras must identify pedestrians across views and time in real-time to support safe navigation and trajectory prediction. However, the presence of uncertain or missing input modalities--such as RGB, infrared, sketches, or textual descriptions--poses significant challenges to conventional ReID approaches. While large-scale pre-trained models offer strong multimodal semantic modeling capabilities, their computational overhead limits practical deployment in resource-constrained environments. To address these challenges, we propose a lightweight Uncertainty Modal Modeling (UMM) framework, which integrates a multimodal token mapper, synthetic modality augmentation strategy, and cross-modal cue interactive learner. Together, these components enable unified feature representation, mitigate the impact of missing modalities, and extract complementary information across different data types. Additionally, UMM leverages CLIP's vision-language alignment ability to fuse multimodal inputs efficiently without extensive finetuning. Experimental results demonstrate that UMM achieves strong robustness, generalization, and computational efficiency under uncertain modality conditions, offering a scalable and practical solution for pedestrian re-identification in autonomous driving scenarios.
- Abstract(参考訳): ReID(Re-Identification)は、特に自動運転において、安全なナビゲーションと軌道予測をサポートするために、車載カメラがリアルタイムでビューや時間にわたって歩行者を識別する必要がある、インテリジェントな認識システムにおいて重要な技術である。
しかし、RGB、赤外線、スケッチ、テキスト記述など、不確実または欠落した入力モダリティの存在は、従来のReIDアプローチに重大な課題をもたらす。
大規模事前学習モデルは強力なマルチモーダル・セマンティック・モデリング機能を提供するが、その計算オーバーヘッドは資源制約のある環境における実際の展開を制限する。
これらの課題に対処するために,マルチモーダルトークンマッパー,合成モダリティ拡張戦略,相互モーダルキュー対話型学習システムを統合した,軽量なUncertainty Modal Modeling (UMM) フレームワークを提案する。
これらのコンポーネントは統合された特徴表現を可能にし、欠落したモダリティの影響を緩和し、異なるデータタイプ間で補完情報を抽出する。
さらに、UMMはCLIPの視覚言語アライメント機能を活用して、広範囲の微調整なしにマルチモーダル入力を効率的に融合する。
実験により,UMMは不確実なモード条件下で頑健な堅牢性,一般化,計算効率を実現し,自律運転シナリオにおける歩行者再識別のためのスケーラブルで実用的なソリューションを提供することが示された。
関連論文リスト
- ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - Rethinking Explainability in the Era of Multimodal AI [9.57008593971486]
マルチモーダルAIシステムはユビキタスになり、ハイテイクなアプリケーションにまたがって優れたパフォーマンスを実現している。
既存の説明可能性のテクニックの多くは単調のままであり、モダリティ固有の特徴属性、概念、回路トレースを分離して生成する。
本稿では, マルチモーダルモデル決定を駆動するクロスモーダルな影響を, 体系的に誤表現し, 捉えることができないことを論じる。
論文 参考訳(メタデータ) (2025-06-16T03:08:29Z) - Visual Dominance and Emerging Multimodal Approaches in Distracted Driving Detection: A Review of Machine Learning Techniques [3.378738346115004]
引き離された運転は、世界中の道路交通事故と死者の大きな原因であり続けている。
機械学習(ML)とディープラーニング(DL)の最近の進歩は、主に注意散逸を検出する視覚データに焦点を当てている。
本稿では,ML/DL技術を用いた視覚的,センサベース,マルチモーダル,新興モダリティを横断する運転検出のための74つの研究を体系的に評価する。
論文 参考訳(メタデータ) (2025-05-04T02:51:00Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Learning in Multi-Modal Large Language Model [22.25903116720301]
説明責任は、信頼できる自律的な意思決定において重要な役割を果たす。
MLLM(Multi-Modal Large Language Model)の最近の進歩は、駆動エージェントとしての説明可能性を高める有望な可能性を示している。
提案するRAG-Driverは,高機能,説明性,一般化可能な自律運転にコンテキスト内学習を活用する,検索強化型多モード大言語モデルである。
論文 参考訳(メタデータ) (2024-02-16T16:57:18Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。