論文の概要: BitTP: The Lightweight Trajectory Prediction Model with BitLLM for Edge-Devices
- arxiv url: http://arxiv.org/abs/2605.29705v1
- Date: Thu, 28 May 2026 10:04:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.167782
- Title: BitTP: The Lightweight Trajectory Prediction Model with BitLLM for Edge-Devices
- Title(参考訳): BitTP:エッジデバイス向けBitLLMを用いた軽量軌道予測モデル
- Authors: Mincheol Kang, Hyunjin Lim, Bomin Kang, Daehee Park,
- Abstract要約: 大規模言語モデル(LLM)は、強い文脈推論と解釈可能な言語に基づく軌道表現を提供する。
これらのLCMベースの予測器は、非常にメモリと計算集約であり、自律ロボットのリソース制約されたエッジデバイスへのデプロイが困難になる。
LLMに基づく軌道予測器を軽量ビットジェクタに変換するBitTPを提案する。
実験的に、BitTP-Weightは保存するだけでなく、BF16ベースラインよりも予測品質が向上し、ADEは14.29%、FDEは20.97%減少する。
- 参考スコア(独自算出の注目度): 6.264768004263451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trajectory prediction is a fundamental task for autonomous systems, requiring complex reasoning about multi-agent interactions and intents. Large language models (LLMs) have recently been adopted for this task, as they provide strong contextual reasoning and interpretable, language-based trajectory representations. However, these LLM-based predictors are extremely memory- and compute-intensive, making them difficult to deploy on resource-constrained edge devices such as on-board computers in autonomous robots. To bridge this gap, we propose BitTP, which converts an LLM-based trajectory predictor into a lightweight bitlinear architecture. We demonstrate that weight-only quantization to 1.58-bit (BitTP-Weight) is optimal. Crucially, activations must remain in full precision, as quantizing them leads to severe degradation and instability in spatio-temporal reasoning. Empirically, BitTP-Weight not only preserves but improves prediction quality over the full-precision (BF16) LLM baseline, reducing ADE by 14.29% and FDE by 20.97% on average, while simultaneously reducing memory usage and inference latency relative to other quantization methods. These results demonstrate that carefully designed quantization acts as an effective regularizer, enabling the practical deployment of sophisticated LLM-based reasoning on edge devices. Code is available at: https://github.com/MintCat98/BitTP.
- Abstract(参考訳): 軌道予測は自律システムの基本課題であり、多エージェントの相互作用と意図に関する複雑な推論を必要とする。
大規模言語モデル(LLM)は、強い文脈推論と解釈可能な言語ベースの軌道表現を提供するため、最近このタスクに採用されている。
しかし、これらのLCMベースの予測器は、非常にメモリと計算集約性が高く、自律ロボットにおけるオンボードコンピュータのようなリソース制約のあるエッジデバイスへのデプロイが困難である。
このギャップを埋めるため,LLMベースの軌道予測器を軽量なビットリニアアーキテクチャに変換するBitTPを提案する。
我々は、重量のみの量子化が1.58ビット(BitTP-Weight)に最適であることを示した。
重要なことに、アクティベーションは、時空間的推論において深刻な劣化と不安定をもたらすため、完全な精度で保たなければならない。
実証的には、BitTP-Weightは保存するだけでなく、全精度 (BF16) LLMベースラインよりも予測品質を向上し、ADEを14.29%、FDEを20.97%削減し、他の量子化法と比較してメモリ使用率と推論遅延を同時に低減する。
これらの結果は、慎重に設計された量子化が効果的な正則化器として機能し、エッジデバイスに高度なLCMベースの推論を実践的に展開できることを証明している。
コードは、https://github.com/MintCat98/BitTP.comで入手できる。
関連論文リスト
- End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - SLED: A Speculative LLM Decoding Framework for Efficient Edge Serving [7.69991252191073]
acronymは、軽量エッジデバイスが様々なドラフトモデルを使用して、複数の候補トークンをローカルにドラフトできるフレームワークである。
単一の共有エッジサーバは、より正確なターゲットモデルを用いてトークンを検証する。
Jetson Orin Nano、Raspberry Pi 4B/5、Nvidia A100 GPUを搭載したエッジサーバを使った最初の実験は、大きなメリットを示している。
論文 参考訳(メタデータ) (2025-06-11T04:55:54Z) - Harnessing On-Device Large Language Model: Empirical Results and Implications for AI PC [8.837470787975308]
エッジデバイス上の大規模言語モデル(LLM)は、大きなプライバシー上のメリットを提供する。
これらのオンデバイスLSMは、モデル容量の削減と必要な圧縮技術のために本質的に性能上の制限に直面している。
デバイス上でのLCMを評価するために,モデル能力,開発効率,システム資源を包含する体系的方法論を導入する。
論文 参考訳(メタデータ) (2025-05-21T02:23:01Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources [35.16907522675046]
大規模言語モデル(LLM)は、さまざまな自然言語処理タスクに顕著な影響を与えている。
下流データセットでトレーニング済みのモデルを微調整することで、大幅なパフォーマンス向上を実現している。
このプロセスは通常、大量の高価なハイエンドGPUを必要とする。
トレーニング状態の量子化と格納を行う量子化フルパラメータチューニングフレームワークであるQFTを提案する。
論文 参考訳(メタデータ) (2023-10-11T02:47:40Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。