論文の概要: A Modular, Data-Free Pipeline for Multi-Label Intention Recognition in Transportation Agentic AI Applications
- arxiv url: http://arxiv.org/abs/2511.03363v1
- Date: Wed, 05 Nov 2025 11:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.409524
- Title: A Modular, Data-Free Pipeline for Multi-Label Intention Recognition in Transportation Agentic AI Applications
- Title(参考訳): 移動エージェントAIアプリケーションにおけるマルチラベル意図認識のためのモジュール型データフリーパイプライン
- Authors: Xiaocai Zhang, Hur Lim, Ke Wang, Zhe Xiao, Jing Wang, Kelvin Lee, Xiuju Fu, Zheng Qin,
- Abstract要約: 輸送におけるエージェントAIアプリケーションに対して,マルチラベル意図認識のためのモジュール型データフリーパイプラインを提案する。
大規模で注釈付きコーパスに依存する従来の意図認識システムとは異なり、当社のアプローチはコストのかかるデータ収集の必要性を排除している。
我々のシステムはユーザクエリをタスク固有のモジュールにシームレスにルーティングし、完全な自律的意図認識エージェントの基盤となる。
- 参考スコア(独自算出の注目度): 12.25149118082394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, a modular, data-free pipeline for multi-label intention recognition is proposed for agentic AI applications in transportation. Unlike traditional intent recognition systems that depend on large, annotated corpora and often struggle with fine-grained, multi-label discrimination, our approach eliminates the need for costly data collection while enhancing the accuracy of multi-label intention understanding. Specifically, the overall pipeline, named DMTC, consists of three steps: 1) using prompt engineering to guide large language models (LLMs) to generate diverse synthetic queries in different transport scenarios; 2) encoding each textual query with a Sentence-T5 model to obtain compact semantic embeddings; 3) training a lightweight classifier using a novel online focal-contrastive (OFC) loss that emphasizes hard samples and maximizes inter-class separability. The applicability of the proposed pipeline is demonstrated in an agentic AI application in the maritime transportation context. Extensive experiments show that DMTC achieves a Hamming loss of 5.35% and an AUC of 95.92%, outperforming state-of-the-art multi-label classifiers and recent end-to-end SOTA LLM-based baselines. Further analysis reveals that Sentence-T5 embeddings improve subset accuracy by at least 3.29% over alternative encoders, and integrating the OFC loss yields an additional 0.98% gain compared to standard contrastive objectives. In conclusion, our system seamlessly routes user queries to task-specific modules (e.g., ETA information, traffic risk evaluation, and other typical scenarios in the transportation domain), laying the groundwork for fully autonomous, intention-aware agents without costly manual labelling.
- Abstract(参考訳): 本研究では,多ラベル意図認識のためのモジュール型データフリーパイプラインをエージェントAIアプリケーションに提案する。
大規模で注釈付きコーパスに依存した従来の意図認識システムと異なり、細粒度でマルチラベルの識別に苦慮することが多いため、本手法は多ラベルの意図理解の精度を高めつつ、コストのかかるデータ収集の必要性を排除している。
具体的には、全体パイプラインはDMTCと呼ばれ、3つのステップから構成される。
1) 大規模言語モデル (LLM) を誘導するために, プロンプトエンジニアリングを用いて, 異なる輸送シナリオにおける多様な合成クエリを生成する。
2) Sentence-T5モデルで各テキストクエリをエンコードして,コンパクトなセマンティック埋め込みを得る。
3) オンライン焦点コントラスト(OFC)ロスを用いた軽量分類器の訓練を行い, ハードサンプルを重視し, クラス間分離性を最大化する。
提案するパイプラインの適用性は,海上輸送におけるエージェントAIアプリケーションで実証される。
大規模な実験の結果、DMTCのハミング損失は5.35%、AUCは95.92%であり、最先端の多ラベル分類器や最近のSOTA LLMベースラインよりも優れていた。
さらなる分析により、Sentence-T5の埋め込みは、他のエンコーダよりも少なくとも3.29%精度が向上し、OFCの損失を統合することで、標準のコントラスト目標に比べて0.98%の利得が得られることが明らかになった。
その結果,ユーザクエリをタスク固有のモジュール(ETA情報,交通リスク評価など,交通分野の一般的なシナリオ)にシームレスにルーティングし,手作業によるラベル付けを伴わずに,完全自律的かつ意図的エージェントの基盤を築き上げた。
関連論文リスト
- Multi-Model Synthetic Training for Mission-Critical Small Language Models [0.0]
海上情報に対する261倍のコスト削減を実現する新しい手法を提案する。
提案手法は,320億個の自動識別システム (AIS) の船体追跡記録を21,543個の質問と回答のペアに変換する。
その結果得られた微調整Qwen2.5-7Bモデルは、海事作業において75%の精度を達成し、推論のためにより大きなモデルを使用するよりもかなり安価である。
論文 参考訳(メタデータ) (2025-09-16T13:04:48Z) - D-CAT: Decoupled Cross-Attention Transfer between Sensor Modalities for Unimodal Inference [3.6344649347926326]
クロスモーダル変換学習はマルチモーダル分類モデルを改善するために用いられる。
既存の方法は、トレーニングと推論の両方でペアのセンサーデータを必要とする。
本稿では,共振器の共振器を使わずにモダリティ特異的な表現を整列するフレームワークであるDecoupled Cross-Attention Transfer (D-CAT)を提案する。
論文 参考訳(メタデータ) (2025-09-11T10:54:07Z) - Scene-Agnostic Traversability Labeling and Estimation via a Multimodal Self-supervised Framework [9.925474085627275]
トレーバービリティの推定は、ロボットが多様な地形や環境を移動できるようにするために重要である。
トラバーサビリティラベリングと推定のためのマルチモーダルな自己教師型フレームワークを提案する。
当社のアプローチは、さまざまなデータセットの約88%のIoUを一貫して達成しています。
論文 参考訳(メタデータ) (2025-08-25T17:40:16Z) - INFNet: A Task-aware Information Flow Network for Large-Scale Recommendation Systems [8.283354901677692]
Information Flow Network (INFNet)は、大規模レコメンデーションシナリオ用に設計されたタスク対応アーキテクチャである。
INFNetは、機能を3つのトークンタイプ、分類トークン、シーケンストークン、タスクトークンに分類し、新しいデュアルフロー設計を導入している。
INFNetは商業オンライン広告システムで成功し、収益(REV)は1.587%、クリックスルーレート(CTR)は+1.155%だった。
論文 参考訳(メタデータ) (2025-08-15T16:18:32Z) - MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。
提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。
その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-13T19:14:48Z) - Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。
RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。
我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文 参考訳(メタデータ) (2025-06-05T08:40:24Z) - Task-Oriented Low-Label Semantic Communication With Self-Supervised Learning [67.06363342414397]
タスク指向の意味コミュニケーションは、正確なメッセージではなく意味情報を伝達することで伝達効率を高める。
深層学習(DL)に基づく意味コミュニケーションは、意味抽出、伝達、解釈に不可欠な意味知識を効果的に育むことができる。
タスク推論性能を向上させるための自己教師付き学習ベースセマンティックコミュニケーションフレームワーク(SLSCom)を提案する。
論文 参考訳(メタデータ) (2025-05-26T13:06:18Z) - From Objects to Events: Unlocking Complex Visual Understanding in Object Detectors via LLM-guided Symbolic Reasoning [71.41062111470414]
現在のオブジェクト検出器は、エンティティのローカライゼーションと分類において優れているが、イベント認識機能には固有の制限がある。
本稿では,単なるオブジェクト認識以上の標準オブジェクト検出能力を,複雑なイベント理解に拡張する新しいフレームワークを提案する。
私たちの重要なイノベーションは、高価なタスク固有のトレーニングを必要とせずに、オブジェクト検出とイベント理解のセマンティックなギャップを埋めることです。
論文 参考訳(メタデータ) (2025-02-09T10:30:54Z) - Transformer-based Self-supervised Multimodal Representation Learning for
Wearable Emotion Recognition [2.4364387374267427]
ウェアラブル感情認識のための新しい自己教師型学習(SSL)フレームワークを提案する。
本手法は様々な感情分類タスクにおいて最先端の結果を得た。
論文 参考訳(メタデータ) (2023-03-29T19:45:55Z) - MMRNet: Improving Reliability for Multimodal Object Detection and
Segmentation for Bin Picking via Multimodal Redundancy [68.7563053122698]
マルチモーダル冗長性(MMRNet)を用いた信頼度の高いオブジェクト検出・分割システムを提案する。
これは、マルチモーダル冗長の概念を導入し、デプロイ中のセンサ障害問題に対処する最初のシステムである。
システム全体の出力信頼性と不確実性を測定するために,すべてのモダリティからの出力を利用する新しいラベルフリーマルチモーダル整合性(MC)スコアを提案する。
論文 参考訳(メタデータ) (2022-10-19T19:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。