論文の概要: LLM-MLFFN: Multi-Level Autonomous Driving Behavior Feature Fusion via Large Language Model
- arxiv url: http://arxiv.org/abs/2603.02528v1
- Date: Tue, 03 Mar 2026 02:26:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.602823
- Title: LLM-MLFFN: Multi-Level Autonomous Driving Behavior Feature Fusion via Large Language Model
- Title(参考訳): LLM-MLFFN:大規模言語モデルによる多層自律走行特性融合
- Authors: Xiangyu Li, Tianyi Wang, Xi Cheng, Rakesh Chowdary Machineni, Zhaomiao Guo, Sikai Chen, Junfeng Jiao, Christian Claudel,
- Abstract要約: 本稿では,LLM-MLFFNについて述べる。
提案する LLM-MLFFN フレームワークは,大規模事前学習モデルの事前処理を統合し,分類精度を高めるためにマルチレベルアプローチを採用する。
オープントラジェクトリデータセットの評価は、提案したLLM-MLFFNの優れた性能を示し、分類精度は94%以上である。
- 参考スコア(独自算出の注目度): 8.63792214154021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate classification of autonomous vehicle (AV) driving behaviors is critical for safety validation, performance diagnosis, and traffic integration analysis. However, existing approaches primarily rely on numerical time-series modeling and often lack semantic abstraction, limiting interpretability and robustness in complex traffic environments. This paper presents LLM-MLFFN, a novel large language model (LLM)-enhanced multi-level feature fusion network designed to address the complexities of multi-dimensional driving data. The proposed LLM-MLFFN framework integrates priors from largescale pre-trained models and employs a multi-level approach to enhance classification accuracy. LLM-MLFFN comprises three core components: (1) a multi-level feature extraction module that extracts statistical, behavioral, and dynamic features to capture the quantitative aspects of driving behaviors; (2) a semantic description module that leverages LLMs to transform raw data into high-level semantic features; and (3) a dual-channel multi-level feature fusion network that combines numerical and semantic features using weighted attention mechanisms to improve robustness and prediction accuracy. Evaluation on the Waymo open trajectory dataset demonstrates the superior performance of the proposed LLM-MLFFN, achieving a classification accuracy of over 94%, surpassing existing machine learning models. Ablation studies further validate the critical contributions of multi-level fusion, feature extraction strategies, and LLM-derived semantic reasoning. These results suggest that integrating structured feature modeling with language-driven semantic abstraction provides a principled and interpretable pathway for robust autonomous driving behavior classification.
- Abstract(参考訳): 自動運転車の運転行動の正確な分類は、安全性検証、性能診断、交通統合分析に重要である。
しかし、既存のアプローチは主に数値時系列モデリングに依存しており、複雑な交通環境における解釈可能性や堅牢性を制限する意味論的抽象化を欠いていることが多い。
本稿では,LLM-MLFFNについて述べる。LLM-MLFFNは,多次元駆動データの複雑さに対処するために設計された,LLMを拡張した多層機能融合ネットワークである。
提案する LLM-MLFFN フレームワークは,大規模事前学習モデルの事前処理を統合し,分類精度を高めるためにマルチレベルアプローチを採用する。
LLM-MLFFNは,(1)運転行動の定量的側面を捉えるために統計的,行動的,動的特徴を抽出するマルチレベル特徴抽出モジュール,(2)LLMを利用して生データを高レベルな意味的特徴に変換するセマンティック記述モジュール,(3)重み付き注意機構を用いた数値的特徴と意味的特徴を組み合わせた2チャネル多レベル特徴融合ネットワークからなる。
Waymoのオープントラジェクトリデータセットの評価は、提案したLLM-MLFFNの優れた性能を示し、94%以上の分類精度を達成し、既存の機械学習モデルを上回っている。
アブレーション研究は、多レベル融合、特徴抽出戦略、LLMに基づく意味論の批判的貢献をさらに検証している。
これらの結果は,構造化特徴モデリングと言語駆動型セマンティック抽象化の統合が,堅牢な自律運転行動分類のための原則的かつ解釈可能な経路を提供することを示唆している。
関連論文リスト
- From One-to-One to Many-to-Many: Dynamic Cross-Layer Injection for Deep Vision-Language Fusion [91.35078719566472]
VLM(Vision-Language Models)は、粗い非対称接続を使用することで、深刻な視覚的特徴のボトルネックを生み出す。
CLI(Cross-Layer Injection)は,2つのモダリティの間に動的に多対多の橋を架ける,斬新で軽量なフレームワークである。
論文 参考訳(メタデータ) (2026-01-15T18:59:10Z) - Large Multimodal Models-Empowered Task-Oriented Autonomous Communications: Design Methodology and Implementation Challenges [31.57528074626831]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は前例のない突破口となった。
本稿では,LLM/LMMを用いたタスク指向の自律通信について述べる。
提案したLLM/LMM支援自律システムは,従来型および差別型深層学習(DL)モデルに基づく手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-10-23T15:08:58Z) - Utilizing Large Language Models for Machine Learning Explainability [37.31918138232927]
本研究では,機械学習(ML)ソリューションを自律的に生成する際の,大規模言語モデル(LLM)の説明可能性について検討する。
最先端の3つのLCMは、ランダムフォレスト、XGBoost、マルチレイヤーパーセプトロン、ロング短期記憶ネットワークの4つの共通分類器のためのトレーニングパイプラインを設計するよう促される。
生成したモデルは、SHAP(SHapley Additive exPlanations)を用いた予測性能(リコール、精度、F1スコア)と説明可能性の観点から評価される。
論文 参考訳(メタデータ) (2025-10-08T11:46:23Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - Enhancing Large Language Models for Mobility Analytics with Semantic Location Tokenization [29.17336622418242]
移動分析のための大規模言語モデル(LLM)を大幅に強化する新しいフレームワークであるQT-Mobを提案する。
QT-Mobは、場所を表すためにコンパクトでセマンティックにリッチなトークンを学ぶ、ロケーショントークン化モジュールを導入した。
3つの実世界のデータセットの実験は、次の位置予測とモビリティ回復タスクの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-08T02:17:50Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Modular Machine Learning: An Indispensable Path towards New-Generation Large Language Models [33.822930522694406]
我々は,次世代大規模言語モデル(LLM)に不可欠なアプローチとして,有望な学習パラダイム,すなわちモジュール機械学習(MML)を概説する。
我々は,LLMの複雑な構造を,モジュール表現,モジュールモデル,モジュール推論の3つの相互依存成分に分解する,LLMのための統一MMLフレームワークを提案する。
最終的に、MLとLLMの統合は、統計的(深層)学習と形式的(論理的)推論のギャップを埋める可能性があると信じています。
論文 参考訳(メタデータ) (2025-04-28T17:42:02Z) - Distilling Transitional Pattern to Large Language Models for Multimodal Session-based Recommendation [67.84581846180458]
セッションベースのレコメンデーション(SBR)は、匿名セッションに基づいて次の項目を予測する。
近年のMultimodal SBR法は、モダリティ学習に単純化された事前学習モデルを用いるが、セマンティック・リッチネスに制限がある。
蒸留パラダイムを拡張し,MSBRの促進のための遷移パターンを分離・整合させる多モードLCM拡張フレームワークTPADを提案する。
論文 参考訳(メタデータ) (2025-04-13T07:49:08Z) - X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。
最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。
2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。
3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - Robusta: Robust AutoML for Feature Selection via Reinforcement Learning [24.24652530951966]
強化学習(RL)に基づく初の堅牢なAutoMLフレームワークRobostaを提案します。
このフレームワークは,良性サンプルの競争精度を維持しつつ,モデルロバスト性を最大22%向上させることができることを示す。
論文 参考訳(メタデータ) (2021-01-15T03:12:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。