論文の概要: Semantic-Drive: Democratizing Long-Tail Data Curation via Open-Vocabulary Grounding and Neuro-Symbolic VLM Consensus
- arxiv url: http://arxiv.org/abs/2512.12012v2
- Date: Tue, 16 Dec 2025 17:15:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 14:48:05.937637
- Title: Semantic-Drive: Democratizing Long-Tail Data Curation via Open-Vocabulary Grounding and Neuro-Symbolic VLM Consensus
- Title(参考訳): セマンティックドライブ:オープンボキャブラリグラウンドとニューロシンボリックVLMコンセンサスによる長期データキュレーションの民主化
- Authors: Antonio Guillen-Perez,
- Abstract要約: セマンティックドライブ(Semantic-Drive)は、セマンティックなデータマイニングのための、ローカルファーストで、ニューロシンボリックなフレームワークである。
提案手法は,(1)リアルタイムオープン語彙検出装置(YOLOE)によるグラウンドニングと,(2)推論VLMによる認知分析の2つの段階に分離する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of robust Autonomous Vehicles (AVs) is bottlenecked by the scarcity of "Long-Tail" training data. While fleets collect petabytes of video logs, identifying rare safety-critical events (e.g., erratic jaywalking, construction diversions) remains a manual, cost-prohibitive process. Existing solutions rely on coarse metadata search, which lacks precision, or cloud-based VLMs, which are privacy-invasive and expensive. We introduce Semantic-Drive, a local-first, neuro-symbolic framework for semantic data mining. Our approach decouples perception into two stages: (1) Symbolic Grounding via a real-time open-vocabulary detector (YOLOE) to anchor attention, and (2) Cognitive Analysis via a Reasoning VLM that performs forensic scene analysis. To mitigate hallucination, we implement a "System 2" inference-time alignment strategy, utilizing a multi-model "Judge-Scout" consensus mechanism. Benchmarked on the nuScenes dataset against the Waymo Open Dataset (WOD-E2E) taxonomy, Semantic-Drive achieves a Recall of 0.966 (vs. 0.475 for CLIP) and reduces Risk Assessment Error by 40% ccompared to the best single scout models. The system runs entirely on consumer hardware (NVIDIA RTX 3090), offering a privacy-preserving alternative to the cloud.
- Abstract(参考訳): 堅牢な自律走行車(AV)の開発は、"Long-Tail"トレーニングデータの不足によってボトルネックになっている。
艦隊は1ペタバイトのビデオログを収集するが、まれな安全上重要な出来事(例えば、不安定なジェイウォーキング、建設のディバージョン)を特定することは、手作業によるコスト抑制のプロセスのままである。
既存のソリューションは、精度の低い粗いメタデータ検索や、プライバシを侵害しコストがかかるクラウドベースのVLMに依存している。
セマンティックドライブ(Semantic-Drive)は、セマンティックなデータマイニングのための、ローカルファーストで、ニューロシンボリックなフレームワークである。
提案手法は,(1)リアルタイムオープン語彙検出装置(YOLOE)による記号的グラウンドリングと,(2)法医学的シーン解析を行うReasoning VLMによる認知分析の2段階に分離する。
幻覚を緩和するために,マルチモデル "Judge-Scout" コンセンサス機構を利用して,推論時アライメント戦略「System 2」を実装した。
Waymo Open Dataset (WOD-E2E) 分類に対するnuScenesデータセットでベンチマークされたSemantic-Driveは、0.966(vs. 0.475 for CLIP)のリコールを実現し、最高の単一スカウトモデルと比較すると、リスクアセスメントエラーを40%削減する。
このシステムは、完全に消費者向けハードウェア(NVIDIA RTX 3090)で動作し、クラウドに代わるプライバシー保護を提供する。
関連論文リスト
- Federated Spatiotemporal Graph Learning for Passive Attack Detection in Smart Grids [2.721477719641864]
本稿では,時間的ウィンドウ上で物理層と行動指標を融合させて受動的攻撃を検出するグラフ中心型マルチモーダル検出器を提案する。
テスト精度は98.32%、シーケンス毎の93.35%を0.15% FPRで達成している。
論文 参考訳(メタデータ) (2025-09-29T08:52:30Z) - LeakSealer: A Semisupervised Defense for LLMs Against Prompt Injection and Leakage Attacks [7.115093658017371]
LeakSealerは、法医学的な洞察のための静的分析とHuman-In-The-Loopパイプラインの動的防御を組み合わせた、モデルに依存しないフレームワークである。
筆者らはLeakSealerを,(1)公開ベンチマークデータセットを用いたジェイルブレイクの試み,(2)ラベル付きLLMインタラクションのキュレートデータセットによってサポートされているPIIリークの2つのシナリオで実証的に評価した。
論文 参考訳(メタデータ) (2025-08-01T13:04:28Z) - SAM2Auto: Auto Annotation Using FLASH [13.638155035372835]
VLM(Vision-Language Models)は、注釈付きデータセットの不足により、大規模言語モデルに遅れている。
SAM2Autoは、人間の介入やデータセット固有のトレーニングを必要としないビデオデータセットのための、最初の完全に自動化されたアノテーションパイプラインである。
本システムでは, 検出誤差を最小限に抑えつつ, ビデオシーケンス全体にわたって一貫した物体追跡を確実にするため, 統計的手法を用いている。
論文 参考訳(メタデータ) (2025-06-09T15:15:15Z) - Real-Time Anomaly Detection in Video Streams [0.0]
この論文は、Othello社とIASD研究所との間のCIFRE協定の一部である。
目的は、ビデオストリーム内のリアルタイムな危険を検出する人工知能システムを開発することである。
論文 参考訳(メタデータ) (2024-11-29T14:24:33Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - Unsupervised Person Re-Identification with Wireless Positioning under
Weak Scene Labeling [131.18390399368997]
本稿では、弱いシーンラベリングの下で、視覚データと無線位置決めトラジェクトリの両方を用いて、教師なしの人物再識別を探索することを提案する。
具体的には、視覚データと無線情報の相補性をモデル化した、新しい教師なしマルチモーダルトレーニングフレームワーク(UMTF)を提案する。
我々のUMTFには、MMDA(Multimodal Data Association Strategy)とMMGN(Multimodal Graph Neural Network)が含まれている。
論文 参考訳(メタデータ) (2021-10-29T08:25:44Z) - SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous
Driving [94.11868795445798]
我々は,SODA10Mという名の自律走行用大規模物体検出ベンチマークをリリースし,1000万枚の未ラベル画像と6つの代表対象カテゴリをラベル付けした20K画像を含む。
多様性を向上させるために、画像は32の異なる都市で、1フレームあたり10秒毎に異なる気象条件、期間、場所のシーンで収集される。
我々は、既存の教師付き最先端検出モデル、一般的な自己監督型および半教師付きアプローチ、および将来のモデルの開発方法に関するいくつかの知見について、広範な実験と詳細な分析を行った。
論文 参考訳(メタデータ) (2021-06-21T13:55:57Z) - Video-based Person Re-identification without Bells and Whistles [49.51670583977911]
ビデオベースの人物再識別(Re-ID)は、異なるカメラの下で歩行者を特定するために、ビデオトラッカーとトリミングされたビデオフレームをマッチングすることを目的としている。
従来の方法による不完全な検出と追跡の結果から, 収穫したトラックレットの空間的, 時間的不整合が生じている。
本稿では,深層学習に基づくトラックレットの検出と追跡を適用することで,これらの予期せぬノイズを効果的に低減できる簡易な再検出リンク(DL)モジュールを提案する。
論文 参考訳(メタデータ) (2021-05-22T10:17:38Z) - SoDA: Multi-Object Tracking with Soft Data Association [75.39833486073597]
マルチオブジェクトトラッキング(MOT)は、自動運転車の安全な配備の前提条件である。
観測対象間の依存関係をエンコードするトラック埋め込みの計算に注目するMOTに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-18T03:40:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。