論文の概要: Decoding in Latent Spaces for Efficient Inference in LLM-based Recommendation
- arxiv url: http://arxiv.org/abs/2509.11524v1
- Date: Mon, 15 Sep 2025 02:30:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.125697
- Title: Decoding in Latent Spaces for Efficient Inference in LLM-based Recommendation
- Title(参考訳): LLMレコメンデーションにおける効率的な推論のための潜時空間の復号化
- Authors: Chengbing Wang, Yang Zhang, Zhicheng Wang, Tianhao Shi, Keqin Bao, Fuli Feng, Tat-Seng Chua,
- Abstract要約: 光遅延空間復号法(L2D)は効率的かつ効率的な遅延空間復号法である。
L2Dは言語空間の復号化よりも10倍以上高速で、性能の維持や向上が可能である。
- 参考スコア(独自算出の注目度): 75.72196852363116
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Fine-tuning large language models (LLMs) for recommendation in a generative manner has delivered promising results, but encounters significant inference overhead due to autoregressive decoding in the language space. This work explores bypassing language-space decoding by directly matching candidate items with the LLM's internal thought representations in the latent space, eliminating the time-consuming autoregressive process to reduce computational costs. Towards this, we introduce Light Latent-space Decoding (L2D), an effective and efficient latent-space decoding method. L2D represents user-preferred items by using the hidden states of test sequences reflecting the LLM's internal thought, and obtains candidate item representations from the hidden states of training sequences labeled with the corresponding candidate items. It then matches the two types of representations to decode items, achieving latent-space decoding. In this way, it enables efficient decoding without altering the LLM's generative tuning paradigm, thereby preserving performance. Extensive empirical results demonstrate that L2D is more than 10x faster than language-space decoding while maintaining or enhancing performance.
- Abstract(参考訳): ジェネレーティブなレコメンデーションのための細調整された大型言語モデル(LLM)は、有望な結果をもたらしたが、言語空間における自己回帰的デコーディングによる大きな推論オーバーヘッドに遭遇した。
本研究は,LLMの内部思考表現と直接マッチングすることで,言語空間のデコーディングを回避し,計算コストを削減するために時間を要する自己回帰プロセスを排除することを目的とする。
そこで本研究では,効率的な遅延空間復号法である光遅延空間復号法(L2D)を提案する。
L2Dは、LLMの内部思想を反映したテストシーケンスの隠れ状態を用いて、ユーザ優先項目を表現し、対応する候補項目にラベル付けされたトレーニングシーケンスの隠れ状態から候補項目表現を取得する。
次に2種類の表現にマッチしてアイテムをデコードし、遅延空間デコードを達成する。
これにより、LLMの生成的チューニングパラダイムを変更することなく効率的な復号化が可能となり、性能が保たれる。
実験の結果,L2Dは言語空間の復号化よりも10倍以上高速であり,性能の維持や向上を図っている。
関連論文リスト
- The Hidden Cost of Readability: How Code Formatting Silently Consumes Your LLM Budget [13.419222464653425]
コードフォーマッティングが大規模言語モデル(LLM)の性能と効率に与える影響を評価する。
主要な発見は、LLMがフォーマットされたコードと未フォーマットのコード間で性能を維持することができ、平均的な入力トークンの減少が24.5%に達することを示唆している。
書式処理のための双方向コード変換ツールを開発し,既存の推論にシームレスに統合できる。
論文 参考訳(メタデータ) (2025-08-19T09:13:48Z) - Constrained Decoding of Diffusion LLMs with Context-Free Grammars [1.0923877073891446]
大規模言語モデル(LLM)は、様々な領域で有望なパフォーマンスを示している。
本稿では拡散モデルに対する最初の制約付き復号法を提案する。
本手法は,機能的正当性を維持しつつ,ほぼ完全な統語的正当性を達成できることを示す。
論文 参考訳(メタデータ) (2025-08-13T18:09:09Z) - Detection of LLM-Paraphrased Code and Identification of the Responsible LLM Using Coding Style Features [5.774786149181392]
Aliciousのユーザは、大きな言語モデル(LLM)を使って、オリジナルのものとよく似ているプロプライエタリなコードのパラフレーズ付きバージョンを生成することができる。
LPcodedecは人書きとLLM生成コード間のパラフレーズ関係を識別する手法である。
LPcodedecは2つのタスクで最高のベースラインを達成し、F1スコアは2.64%、F1スコアは15.17%向上し、それぞれ1,343xと213xのスピードアップを達成した。
論文 参考訳(メタデータ) (2025-02-25T00:58:06Z) - Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding [15.723047976314751]
大規模言語モデル(LLM)は、実際にはユビキタスなものとなり、翻訳、要約、命令の追従といった生成タスクに広く利用されている。
本稿では,異なるサイズの言語モデルを組み合わせて,自己回帰復号化の効率を高めるハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T18:59:28Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。