論文の概要: TransLLM: A Unified Multi-Task Foundation Framework for Urban Transportation via Learnable Prompting
- arxiv url: http://arxiv.org/abs/2508.14782v1
- Date: Wed, 20 Aug 2025 15:27:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.502614
- Title: TransLLM: A Unified Multi-Task Foundation Framework for Urban Transportation via Learnable Prompting
- Title(参考訳): TransLLM: 学習型プロンプティングによる都市交通のための統合マルチタスク基盤フレームワーク
- Authors: Jiaming Leng, Yunying Bi, Chuan Qin, Bing Yin, Yanyong Zhang, Chao Wang,
- Abstract要約: 大規模ディープラーニングモデルはタスクハングリーとデータハングリーであり、さまざまなシナリオにおける一般化性を制限する。
学習可能なプロンプト合成により,大規模言語モデルとモデリングを統合した統合フレームワークであるTransLLMを提案する。
提案手法は,拡張時間畳み込みと2つの隣接グラフアテンションネットワークによって複雑な依存関係をキャプチャする軽量エンコーダを備える。
- 参考スコア(独自算出の注目度): 26.764515296168145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Urban transportation systems encounter diverse challenges across multiple tasks, such as traffic forecasting, electric vehicle (EV) charging demand prediction, and taxi dispatch. Existing approaches suffer from two key limitations: small-scale deep learning models are task-specific and data-hungry, limiting their generalizability across diverse scenarios, while large language models (LLMs), despite offering flexibility through natural language interfaces, struggle with structured spatiotemporal data and numerical reasoning in transportation domains. To address these limitations, we propose TransLLM, a unified foundation framework that integrates spatiotemporal modeling with large language models through learnable prompt composition. Our approach features a lightweight spatiotemporal encoder that captures complex dependencies via dilated temporal convolutions and dual-adjacency graph attention networks, seamlessly interfacing with LLMs through structured embeddings. A novel instance-level prompt routing mechanism, trained via reinforcement learning, dynamically personalizes prompts based on input characteristics, moving beyond fixed task-specific templates. The framework operates by encoding spatiotemporal patterns into contextual representations, dynamically composing personalized prompts to guide LLM reasoning, and projecting the resulting representations through specialized output layers to generate task-specific predictions. Experiments across seven datasets and three tasks demonstrate the exceptional effectiveness of TransLLM in both supervised and zero-shot settings. Compared to ten baseline models, it delivers competitive performance on both regression and planning problems, showing strong generalization and cross-task adaptability. Our code is available at https://github.com/BiYunying/TransLLM.
- Abstract(参考訳): 都市交通システムは、交通予測、電気自動車(EV)充電需要予測、タクシー配車など、様々な課題に遭遇する。
既存のアプローチには2つの重要な制限がある: 小規模のディープラーニングモデルはタスク固有のものであり、データ不足であり、さまざまなシナリオにおける一般化性を制限する一方、大きな言語モデル(LLM)は、自然言語インターフェースを通じて柔軟性を提供するが、構造化された時空間データと、輸送領域における数値推論に苦労する。
これらの制約に対処するために,学習可能なプロンプト合成により時空間モデルと大規模言語モデルを統合する統合基盤フレームワークであるTransLLMを提案する。
提案手法は, 拡張時間畳み込みと2重共役グラフアテンションネットワークによって複雑な依存関係を捕捉し, 構造化埋め込みによりLLMとシームレスに対面する軽量時空間エンコーダを特徴とする。
強化学習によって訓練された新しいインスタンスレベルのプロンプトルーティング機構は、入力特性に基づいてプロンプトを動的にパーソナライズする。
このフレームワークは、時空間パターンを文脈表現に符号化し、パーソナライズされたプロンプトを動的に構成してLCM推論をガイドし、結果の表現を特殊な出力層を通して投影し、タスク固有の予測を生成する。
7つのデータセットと3つのタスクにわたる実験は、教師付き設定とゼロショット設定の両方において、TransLLMの例外的な効果を示している。
10のベースラインモデルと比較して、回帰問題と計画問題の両方で競争力を発揮し、強力な一般化とクロスタスク適応性を示す。
私たちのコードはhttps://github.com/BiYunying/TransLLM.comで利用可能です。
関連論文リスト
- VisualTrans: A Benchmark for Real-World Visual Transformation Reasoning [10.497961559068493]
ビジュアルトランスフォーメーション推論(VTR)は、知的エージェントが動的シーンを理解するための重要な認知能力である。
既存のベンチマークは、sim-to-realギャップ、タスクの複雑さの制限、不完全な推論カバレッジに悩まされている。
VisualTransは、現実世界の人間とオブジェクトのインタラクションシナリオにおいて、VTR用に特別に設計された最初の包括的なベンチマークである。
論文 参考訳(メタデータ) (2025-08-06T03:07:05Z) - UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines [64.84631333071728]
本稿では,時間的モデリングのためのトランスフォーマーベースの統合フレームワークであるbfUnistageを紹介する。
我々の研究は、タスク固有の視覚テキストが時間学習のための一般化可能なモデルを構築することができることを示した。
また、時間的ダイナミクスを明示的に組み込むための時間的モジュールも導入する。
論文 参考訳(メタデータ) (2025-03-26T17:33:23Z) - Diffusion Augmented Retrieval: A Training-Free Approach to Interactive Text-to-Image Retrieval [7.439049772394586]
Diffusion Augmented Retrieval (DAR)は、複数の中間表現を生成するフレームワークである。
DARの結果は微調整されたI-TIRモデルと同等だが、チューニングオーバーヘッドは発生しない。
論文 参考訳(メタデータ) (2025-01-26T03:29:18Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Dude: Dual Distribution-Aware Context Prompt Learning For Large Vision-Language Model [27.56988000960972]
ドメイン共有コンテキストとクラス固有コンテキストの両方の2つのコンテキストに基づいた新しいフレームワークを導入する。
このような二重プロンプト手法は、大規模言語モデルで符号化された暗黙的および明示的な要素を結合することによって、モデルの特徴表現を強化する。
また、構築されたプロンプトと視覚トークンの関係を定量化するために、不均衡最適輸送(UOT)理論を定式化する。
論文 参考訳(メタデータ) (2024-07-05T13:15:29Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。