論文の概要: Behavior-Equivalent Token: Single-Token Replacement for Long Prompts in LLMs
- arxiv url: http://arxiv.org/abs/2511.23271v1
- Date: Fri, 28 Nov 2025 15:22:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.960165
- Title: Behavior-Equivalent Token: Single-Token Replacement for Long Prompts in LLMs
- Title(参考訳): 挙動等価トークン:LLMにおけるロングプロンプトの単孔交換
- Authors: Jiancheng Dong, Pengyue Jia, Jingyu Peng, Maolin Wang, Yuhao Wang, Lixin Su, Xin Sun, Shuaiqiang Wang, Dawei Yin, Xiangyu Zhao,
- Abstract要約: 単一プロンプト固有の振る舞い等価トークン([BE])を学習する軽量なトレーニングフレームワークを提案する。
フレームワークはまず[BE]に、元のシステムプロンプトの自然言語内容を再構成してエンコードし、その後、プロンプトの下流の振る舞いをこの単一のトークンに蒸留するように訓練する。
3つのデータセットに対する実証的な評価は、1つの[BE]トークンが3000倍の高速化を実現し、元のシステムの下流性能の約98%を維持していることを示している。
- 参考スコア(独自算出の注目度): 55.827877498548965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Carefully engineered system prompts play a critical role in guiding the behavior of LLM agents, but their considerable length introduces significant drawbacks, including increased inference latency, higher computational cost, and reduced effective context length. This raises the question of whether such lengthy prompts can be replaced by a drastically reduced number of tokens while preserving their behavioral effect on downstream tasks. To enable this, we propose a lightweight three-stage training framework that learns a single prompt-specific Behavior-Equivalent token ([BE]). The framework first trains [BE] to encode the natural-language content of the original system prompt via reconstruction, and then distills the prompt 's downstream behavior into this single token. Importantly, our method requires no access to model internals, no auxiliary compression models, and no labeled responses. Empirical evaluations on three datasets show that a single [BE] token achieves up to a 3000x reduction in prompt length, while retaining about 98% of the downstream performance of the original system prompts. This substantially reduces inference cost and leaves almost the entire context window available for user inputs.
- Abstract(参考訳): 慎重に設計されたシステムプロンプトは、LLMエージェントの動作を導く上で重要な役割を果たすが、その相当な長さは、推論遅延の増大、計算コストの上昇、有効コンテキスト長の減少など、大きな欠点をもたらす。
これにより、このような長いプロンプトが、ダウンストリームタスクに対する行動効果を維持しながら、大幅に削減されたトークン数に置き換えられるかどうかという疑問が持ち上がる。
これを実現するために,1つのプロンプト固有の振る舞い等価トークン([BE])を学習する軽量な3段階トレーニングフレームワークを提案する。
フレームワークはまず [BE] に、元のシステムプロンプトの自然言語内容を再構成してエンコードし、その後、プロンプトの下流の振る舞いをこの単一トークンに蒸留するように訓練する。
重要なこととして,本手法ではモデル内部へのアクセスは不要,補助圧縮モデルは不要,ラベル付き応答は不要である。
3つのデータセットに対する実証的な評価は、1つの[BE]トークンが3000倍の高速化を実現し、元のシステムの下流性能の約98%を維持していることを示している。
これにより推論コストを大幅に削減し、コンテキストウィンドウのほとんどをユーザ入力に残します。
関連論文リスト
- ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models [7.7352936204066]
本稿では,タスク関連性と情報多様性のバランスとして,視覚トークンプルーニングをモデル化する新しいゼロショット手法を提案する。
本手法は,精度の低下を最小限に抑えて,最先端技術に適合または超越した性能を実現する。
これらのゲインには、GPUメモリフットプリントの大幅な削減と推論レイテンシが伴っている。
論文 参考訳(メタデータ) (2025-10-20T06:18:47Z) - All You Need is One: Capsule Prompt Tuning with a Single Vector [86.68105855537762]
現在のプロンプトベースの学習手法は、最適なプロンプトの長さを探索する努力的なグリッドに依存しており、典型的にはかなりの数のプロンプトを必要とする。
本稿では,Capsule Prompt-Tuning(CaPT)を紹介した。
提案手法は,インスタンス認識情報とタスク認識情報の両方をほぼパラメータフリーな方法で革新的に統合する。
論文 参考訳(メタデータ) (2025-10-19T00:02:59Z) - FrugalPrompt: Reducing Contextual Overhead in Large Language Models via Token Attribution [3.4666771782038652]
大規模言語モデル(LLM)は、その恒星の性能の大部分を入力コンテキストの拡大に負っているが、そのような冗長性は金銭的コスト、炭素フットプリント、推論時間の遅延を膨らませている。
本稿では,LLMのための新しいプロンプト圧縮フレームワークであるFrugalPromptを紹介する。
我々は,4つのNLPタスク(感性分析,コモンセンスQA,要約,数学的推論)にまたがるアプローチを評価する。
論文 参考訳(メタデータ) (2025-10-18T10:22:13Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - Achieving More with Less: Additive Prompt Tuning for Rehearsal-Free Class-Incremental Learning [76.32953653161417]
クラス増分学習は、モデルが学習したクラスの知識を保持しながら、新しいクラスを段階的に学習することを可能にする。
この分野での最近の進歩はパラメータ効率のよい微調整技術へと移行している。
本稿では,現在のアプローチの限界に対処する新しいプロンプトベースのアプローチを提案する。
論文 参考訳(メタデータ) (2025-03-11T02:27:37Z) - InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU [48.105361428245736]
大規模言語モデル(LLM)の推論フレームワークであるInfiniteHiPを紹介する。
モジュール型階層型トークンプルーニングアルゴリズムにより,無関係なコンテキストトークンを動的に除去する。
我々のフレームワークは、追加のトレーニングを必要とせず、100万のトークンコンテキストに対して18.95倍のアテンションデコーディングを実現する。
論文 参考訳(メタデータ) (2025-02-13T02:52:01Z) - BatchPrompt: Accomplish more with less [9.204837699571788]
BatchPromptはトークン制限内でデータをバッチする効率的な方法である。
効率を保ち、性能損失を克服するために、バッチの置換と組立を提案する。
これは、大規模言語モデルの高速化を技術的に改善する最初の試みである。
論文 参考訳(メタデータ) (2023-09-01T10:44:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。