論文の概要: Concise and Precise Context Compression for Tool-Using Language Models
- arxiv url: http://arxiv.org/abs/2407.02043v1
- Date: Tue, 2 Jul 2024 08:17:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-03 16:14:40.384099
- Title: Concise and Precise Context Compression for Tool-Using Language Models
- Title(参考訳): ツール・ユース言語モデルにおける簡潔で高精度な文脈圧縮
- Authors: Yang Xu, Yunlong Feng, Honglin Mu, Yutai Hou, Yitong Li, Xinghao Wang, Wanjun Zhong, Zhongyang Li, Dandan Tu, Qingfu Zhu, Min Zhang, Wanxiang Che,
- Abstract要約: ツールを用いた言語モデルにおいて,ツール文書を簡潔かつ高精度な要約シーケンスに圧縮する2つの手法を提案する。
API-BankとAPIBenchの結果,最大16倍の圧縮率で上行ベースラインに匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 60.606281074373136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Through reading the documentation in the context, tool-using language models can dynamically extend their capability using external tools. The cost is that we have to input lengthy documentation every time the model needs to use the tool, occupying the input window as well as slowing down the decoding process. Given the progress in general-purpose compression, soft context compression is a suitable approach to alleviate the problem. However, when compressing tool documentation, existing methods suffer from the weaknesses of key information loss (specifically, tool/parameter name errors) and difficulty in adjusting the length of compressed sequences based on documentation lengths. To address these problems, we propose two strategies for compressing tool documentation into concise and precise summary sequences for tool-using language models. 1) Selective compression strategy mitigates key information loss by deliberately retaining key information as raw text tokens. 2) Block compression strategy involves dividing tool documentation into short chunks and then employing a fixed-length compression model to achieve variable-length compression. This strategy facilitates the flexible adjustment of the compression ratio. Results on API-Bank and APIBench show that our approach reaches a performance comparable to the upper-bound baseline under up to 16x compression ratio.
- Abstract(参考訳): ドキュメントをコンテキストで読むことで、ツールを使用する言語モデルは、外部ツールを使用して動的に機能を拡張することができる。
コストは、モデルがツールを使用する必要があるたびに、長いドキュメントを入力し、入力ウィンドウを占有し、デコードプロセスを遅くすることです。
汎用圧縮の進歩を考えると、ソフトコンテキスト圧縮は問題を緩和するための適切なアプローチである。
しかしながら、ツールドキュメントを圧縮する場合、既存のメソッドはキー情報損失(特にツール/パラメータ名エラー)の弱点と、ドキュメントの長さに基づいて圧縮シーケンスの長さを調整するのが困難である。
これらの問題に対処するために,ツールを用いた言語モデルにおいて,ツール文書を簡潔かつ正確な要約シーケンスに圧縮する2つの方法を提案する。
1)選択圧縮戦略は、キー情報を生のテキストトークンとして意図的に保持することにより、キー情報の損失を軽減する。
2) ブロック圧縮戦略では, ツールドキュメントを短いチャンクに分割し, 可変長圧縮を実現するために固定長圧縮モデルを用いる。
この戦略は圧縮比の柔軟な調整を容易にする。
API-BankとAPIBenchの結果,最大16倍の圧縮率で上行ベースラインに匹敵する性能を示した。
関連論文リスト
- Seq2Seq2Seq: Lossless Data Compression via Discrete Latent Transformers and Reinforcement Learning [3.2641459166493405]
本稿では,T5言語モデルアーキテクチャに適用した強化学習に基づく新しい圧縮手法を提案する。
このアプローチは、従来のベクトル表現ではなく、トークンのシーケンスへのデータの圧縮を可能にする。
言語モデル内の潜伏情報を活用することで、明示的なコンテンツ理解を必要とせず、効果的にデータを圧縮する。
論文 参考訳(メタデータ) (2026-02-12T16:30:55Z) - Arbitrary Ratio Feature Compression via Next Token Prediction [52.10426317889982]
Arbitrary Ratio Feature Compression (ARFC)フレームワークは、任意の圧縮比を単一のモデルでサポートする。
ARCは、次の回帰予測によって圧縮を行う自動回帰モデルである。
MoSモジュールは複数の圧縮結果を利用して圧縮トークンを洗練する。
ERGCは、圧縮中の意味的および構造的関係を維持するために、トレーニングプロセスに統合される。
論文 参考訳(メタデータ) (2026-02-12T02:38:57Z) - Compressing Many-Shots in In-Context Learning [61.231471139896506]
マルチショットプロンプトを圧縮することにより,ICL推論のメモリと計算効率を向上させる手法を提案する。
まず,既存のプロンプト圧縮手法がマルチショット圧縮には有効でないことを示す。
本稿では,レイヤワイド圧縮手法であるMemComを提案する。
論文 参考訳(メタデータ) (2025-10-17T16:57:42Z) - Autoencoding-Free Context Compression for LLMs via Contextual Semantic Anchors [43.02557489472655]
現在の文脈圧縮法は、文脈に依存しない圧縮トークンを訓練し、文脈意味論を圧縮する自動符号化タスクに依存している。
本稿では,自動符号化タスクベース圧縮から,この圧縮機能を備えたアーキテクチャへ移行する新しい手法であるSemantic-Anchor Compression (SAC)を提案する。
SACは、様々な圧縮比で既存の文脈圧縮手法より一貫して優れている。
論文 参考訳(メタデータ) (2025-10-10T01:42:14Z) - UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression [86.33995240043936]
UniGistは、大規模言語モデルのためのシーケンスレベルのロングコンテキスト圧縮フレームワークである。
生のトークンを特別な圧縮トークン(gist)に微粒な方法で置き換えることで、コンテキスト情報を効率的に保存する。
提案手法は,圧縮トークンの実際の除去を可能にすることで,フレキシブルな推論もサポートしている。
論文 参考訳(メタデータ) (2025-09-19T08:47:37Z) - SCOPE: A Generative Approach for LLM Prompt Compression [7.813705327778312]
本稿では,新しい生成的即時圧縮法を提案する。
既存のトークン除去方法とは異なり,本手法はチャンキング・アンド・サマー化機構に重点を置いている。
提案手法は, 圧縮品質が向上し, 最新技術よりも安定性が向上する。
論文 参考訳(メタデータ) (2025-08-16T01:41:53Z) - R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search [61.4807238517108]
CoT(Chain-of-Thought)推論は、ステップバイステップの問題解決を可能にすることで、大きな言語モデル(LLM)を強化する。
CoTのLong-CoTへの拡張はトークン長の増加による計算オーバーヘッドを大幅に増加させる。
ローカル情報とコヒーレンスの両方を保存する2段階のチャンクレベル圧縮フレームワークであるR1-Compressを提案する。
論文 参考訳(メタデータ) (2025-05-22T16:06:59Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - Understanding and Improving Information Preservation in Prompt Compression for LLMs [15.797246416590339]
情報集約的なタスクでは、プロンプト長は急速に増加し、計算要求の増大、性能劣化、無関係または冗長な情報からのバイアスが引き起こされる。
本稿では,プロンプト圧縮手法の詳細な解析を可能にする総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T20:06:11Z) - Lightweight Correlation-Aware Table Compression [58.50312417249682]
$texttVirtual$は、既存のオープンフォーマットとシームレスに統合されるフレームワークである。
data-govデータセットの実験によると、$texttVirtual$はApache Parquetと比較してファイルサイズを最大40%削減する。
論文 参考訳(メタデータ) (2024-10-17T22:28:07Z) - Style-Compress: An LLM-Based Prompt Compression Framework Considering Task-Specific Styles [49.65811277223873]
Style-Compressは、より小さな言語モデルを適用して、新たなタスクでより大きなモデルのプロンプトを、追加のトレーニングなしで圧縮する軽量フレームワークである。
提案手法は,実効圧縮プロンプトを,スタイルのバリエーションやコンテキスト内学習を通じて,タスク固有の実演として反復的に生成し,選択する。
Style-Compressは、オリジナルのプロンプト再構成、テキスト要約、マルチホップQA、CoT推論の4つのタスクで2つのベースライン圧縮モデルを上回っている。
論文 参考訳(メタデータ) (2024-10-17T21:35:49Z) - LanguaShrink: Reducing Token Overhead with Psycholinguistics [8.123272461141815]
LanguaShrinkは、大規模言語モデルの即時圧縮フレームワークである。
本質的な情報を保持しながら、即時長を短縮する。
既存のプロンプト圧縮手法と比較して、LanguaShrinkはエンドツーエンドのレイテンシを1.43倍改善している。
論文 参考訳(メタデータ) (2024-09-01T22:09:20Z) - Characterizing Prompt Compression Methods for Long Context Inference [36.9745587176401]
長期のコンテキスト推論は、計算とメモリの要求が増大するにつれて、システムレベルでの課題を提示します。
コンテクスト長を削減するためにプロンプトを圧縮するいくつかの方法が提案されている。
我々は、異なるプロンプト圧縮法を包括的に評価し、評価する。
論文 参考訳(メタデータ) (2024-07-11T23:34:32Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z) - Compressing Lengthy Context With UltraGist [22.054232261437186]
長大な文脈の高品質な圧縮を特徴とするUltraGistという手法を提案する。
UltraGistは、幅広いコンテキスト長と圧縮比をサポートするために効果的に学習できるため、圧縮の柔軟性に寄与する。
これにより、トレーニングプロセスのサンプル効率が向上し、トレーニングデータの使用が最大になる。
論文 参考訳(メタデータ) (2024-05-26T17:23:56Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression [43.048684907893104]
本稿では, タスク非依存のプロンプト圧縮に着目し, 一般化性と効率性の向上を図る。
我々は,プロンプト圧縮をトークン分類問題として定式化し,圧縮されたプロンプトが元のプロンプトに忠実であることを保証する。
提案手法は, XLM-RoBERTa-large や mBERT などの小型モデルを用いて圧縮目標を明示的に学習することにより,低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:56Z) - Text Compression-aided Transformer Encoding [77.16960983003271]
本稿では,トランスフォーマーのエンコーディングを強化するために,明示的で暗黙的なテキスト圧縮手法を提案する。
バックボーン情報、つまり入力テキストのgistは、特に焦点を当てていません。
評価の結果,提案した明示的かつ暗黙的なテキスト圧縮手法は,強いベースラインと比較して結果を改善することがわかった。
論文 参考訳(メタデータ) (2021-02-11T11:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。