Fugu-MT 論文翻訳(概要): LightThinker: Thinking Step-by-Step Compression

論文の概要: LightThinker: Thinking Step-by-Step Compression

arxiv url: http://arxiv.org/abs/2502.15589v1
Date: Fri, 21 Feb 2025 16:57:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-24 21:37:39.24071
Title: LightThinker: Thinking Step-by-Step Compression
Title（参考訳）: LightThinker: ステップバイステップ圧縮を考える
Authors: Jintian Zhang, Yuqi Zhu, Mengshu Sun, Yujie Luo, Shuofei Qiao, Lun Du, Da Zheng, Huajun Chen, Ningyu Zhang,
Abstract要約: 提案するLightThinkerは,大規模言語モデルを用いて推論中の中間的思考を動的に圧縮する手法である。人間の認知プロセスにインスパイアされたLightThinkerは、思考ステップをコンパクトな表現に圧縮し、元の推論チェーンを捨てる。実験によると、LightThinkerは競合精度を維持しながら、ピークメモリ使用量と推論時間を短縮する。
参考スコア（独自算出の注目度）: 53.8069487638972
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have shown remarkable performance in complex reasoning tasks, but their efficiency is hindered by the substantial memory and computational costs associated with generating lengthy tokens. In this paper, we propose LightThinker, a novel method that enables LLMs to dynamically compress intermediate thoughts during reasoning. Inspired by human cognitive processes, LightThinker compresses verbose thought steps into compact representations and discards the original reasoning chains, thereby significantly reducing the number of tokens stored in the context window. This is achieved by training the model on when and how to perform compression through data construction, mapping hidden states to condensed gist tokens, and creating specialized attention masks. Additionally, we introduce the Dependency (Dep) metric to quantify the degree of compression by measuring the reliance on historical tokens during generation. Extensive experiments on four datasets and two models show that LightThinker reduces peak memory usage and inference time, while maintaining competitive accuracy. Our work provides a new direction for improving the efficiency of LLMs in complex reasoning tasks without sacrificing performance. Code will be released at https://github.com/zjunlp/LightThinker.
Abstract（参考訳）: 大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な性能を示してきたが、その効率は長大なトークンの生成に伴うメモリと計算コストによって妨げられている。本稿では,LLMが推論中の中間的思考を動的に圧縮できる新しい方法であるLightThinkerを提案する。人間の認知プロセスにインスパイアされたLightThinkerは、冗長な思考ステップをコンパクトな表現に圧縮し、元の推論チェーンを捨て、コンテキストウィンドウに格納されたトークンの数を大幅に削減する。これは、データ構築を通じていつ、どのように圧縮を行うかをモデルにトレーニングし、隠れた状態を凝縮されたgistトークンにマッピングし、特別な注意マスクを作成することで達成される。さらに、生成中の過去のトークンに依存することを測定することにより、圧縮の度合いを定量化するために、依存性(Dep)メトリクスを導入する。 4つのデータセットと2つのモデルに対する大規模な実験は、LightThinkerが競合精度を維持しながらピークメモリ使用量と推論時間を削減していることを示している。我々の研究は、複雑な推論タスクにおいて、性能を犠牲にすることなくLLMの効率を向上させるための新しい方向性を提供する。コードはhttps://github.com/zjunlp/LightThinker.comでリリースされる。

関連論文リスト

Saliency-driven Dynamic Token Pruning for Large Language Models [32.903622070917194]
塩分駆動型動的トケンプルーニング(SDTP) 軽量なサリエンシ駆動予測モジュールは、各トークンの重要度をその隠れ状態で推定するように設計されている。ランキングに基づく最適化手法を提案し,評価スコアと予測重要スコアのランキングばらつきを最小化する。
論文参考訳（メタデータ） (2025-04-06T15:15:07Z)
Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
我々は,新しいプロンプトフレームワークであるSketch-of-Thought(SoT)を紹介する。認知に触発された推論パラダイムと言語制約を組み合わせることでトークンの使用を最小化する。 SoTは、無視できる精度の影響でトークンを76%削減する。
論文参考訳（メタデータ） (2025-03-07T06:57:17Z)
Chain of Draft: Thinking Faster by Writing Less [37.492654173517046]
Chain of Draft (CoD)は、人間の認知プロセスにインスパイアされた新しいパラダイムである。 CoDはタスクを解きながら最小限だが情報的中間推論出力を生成する。
論文参考訳（メタデータ） (2025-02-25T19:36:06Z)
SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。 LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文参考訳（メタデータ） (2025-02-17T18:52:29Z)
Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [44.84219266082269]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文参考訳（メタデータ） (2025-02-05T15:33:00Z)
Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。 11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文参考訳（メタデータ） (2025-02-02T13:10:06Z)
RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。 Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文参考訳（メタデータ） (2025-01-31T11:09:16Z)
Compressing KV Cache for Long-Context LLM Inference with Inter-Layer Attention Similarity [24.118503938098307]
選択トークン保持やウィンドウベースアテンションを含む既存の手法では、効率は向上するが、将来のテキスト生成に必要な重要なトークンを破棄するリスクがある。トークンを破棄するのではなく、重要でないトークンのメモリと計算負荷を削減し、トークンロスを伴わずにLCM効率を向上させるアプローチを提案する。
論文参考訳（メタデータ） (2024-12-03T08:29:27Z)
Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。 VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文参考訳（メタデータ） (2024-11-05T18:54:21Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。 HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文参考訳（メタデータ） (2024-04-16T06:34:08Z)
In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。 ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文参考訳（メタデータ） (2023-07-13T17:59:21Z)
Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-05-17T20:45:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。