論文の概要: ARC-Encoder: learning compressed text representations for large language models
- arxiv url: http://arxiv.org/abs/2510.20535v1
- Date: Thu, 23 Oct 2025 13:20:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.935446
- Title: ARC-Encoder: learning compressed text representations for large language models
- Title(参考訳): ARC-Encoder:大規模言語モデルのための圧縮テキスト表現の学習
- Authors: Hippolyte Pilchen, Edouard Grave, Patrick Pérez,
- Abstract要約: ARC-Encoderはコンテキストを連続表現に圧縮するエンコーダである。
ARC-Encoderは,いくつかのベンチマークで最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 24.079338539315398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent techniques such as retrieval-augmented generation or chain-of-thought reasoning have led to longer contexts and increased inference costs. Context compression techniques can reduce these costs, but the most effective approaches require fine-tuning the target model or even modifying its architecture. This can degrade its general abilities when not used for this specific purpose. Here we explore an alternative approach: an encoder that compresses the context into continuous representations which replace token embeddings in decoder LLMs. First, we perform a systematic study of training strategies and architecture choices for the encoder. Our findings led to the design of an Adaptable text Representations Compressor, named ARC-Encoder, which outputs $x$-times fewer continuous representations (typically $x\!\in\!\{4,8\}$) than text tokens. We evaluate ARC-Encoder across a variety of LLM usage scenarios, ranging from in-context learning to context window extension, on both instruct and base decoders. Results show that ARC-Encoder achieves state-of-the-art performance on several benchmarks while improving computational efficiency at inference. Finally, we demonstrate that our models can be adapted to multiple decoders simultaneously, allowing a single encoder to generalize across different decoder LLMs. This makes ARC-Encoder a flexible and efficient solution for portable encoders that work seamlessly with multiple LLMs. We release a training code at https://github.com/kyutai-labs/ARC-Encoder , fine-tuning dataset and pretrained models are available at https://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047 .
- Abstract(参考訳): 検索強化生成や連鎖推論といった最近の技術は、コンテキストが長くなり、推論コストが増大している。
コンテキスト圧縮技術はこれらのコストを削減できますが、最も効果的なアプローチはターゲットモデルを微調整したり、アーキテクチャを変更することさえ必要です。
これは、この特定の目的に使用されていない場合には、その一般的な能力を低下させることができる。
ここでは、コンテクストを連続表現に圧縮し、デコーダのLLMにトークンの埋め込みを置き換えるエンコーダについて検討する。
まず,エンコーダのトレーニング戦略とアーキテクチャ選択の体系的研究を行う。
この結果、ARC-Encoderという名前のAdaptable text Representations Compressorが、連続表現の少ない$x$-timeを出力する(典型的には$x\!
イン!
テキストトークンよりも$4,8\}$)。
我々は、インストラクタとベースデコーダの両方で、コンテキスト内学習からコンテキストウィンドウ拡張まで、様々なLLM使用シナリオでARC-Encoderを評価した。
その結果、ARC-Encoderはいくつかのベンチマークで最先端の性能を実現し、推論時の計算効率は向上した。
最後に、我々のモデルは複数のデコーダに同時に適応できることを示し、単一のエンコーダが異なるデコーダLLMをまたいで一般化できるようにする。
これによりARC-Encoderは、複数のLLMとシームレスに動作するポータブルエンコーダの柔軟で効率的なソリューションとなる。
トレーニングコードはhttps://github.com/kyutai-labs/ARC-Encoder で、微調整データセットと事前トレーニング済みモデルはhttps://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047 で利用可能です。
関連論文リスト
- METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models [92.37117312251755]
プログレッシブプルーニングフレームワークであるMulti-Encoder collaboraTivE tOken pRuning (METEOR)を提案する。
マルチビジョン符号化では,各エンコーダ内の冗長トークンをランク誘導型協調トークン代入戦略により破棄する。
マルチビジョン融合では、異なるエンコーダの視覚的特徴を組み合わせながら、コラボレーティブプルーニングによるクロスエンコーダ冗長性を低減させる。
論文 参考訳(メタデータ) (2025-07-28T13:50:53Z) - Leveraging Decoder Architectures for Learned Sparse Retrieval [26.483483554222012]
Learned Sparse Retrieval (LSR) は従来,エンコーダのみの小型トランスアーキテクチャに重点を置いてきた。
本研究では,異なるトランスアーキテクチャにおけるLSRの有効性について検討した。
論文 参考訳(メタデータ) (2025-04-25T08:04:52Z) - Return of the Encoder: Maximizing Parameter Efficiency for SLMs [4.246337121596753]
encoder-decoderアーキテクチャは、エッジデバイスのデコーダのみのモデルと比較して、47%のレイテンシと4.7倍のスループットを実現している。
本稿では,エンコーダ・デコーダモデルを用いた,大規模でスケーラブルなデコーダのみの教師の能力を活用した新しい知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-27T18:06:36Z) - Better Prompt Compression Without Multi-Layer Perceptrons [33.53334153279698]
本稿では,エンコーダが本来の言語モデルのアーキテクチャを維持して有用な圧縮を実現する必要はないことを示す。
言語モデルのトランスフォーマーブロックにおいて,多層パーセプトロン(MLP)層を除去した後に,プロンプト圧縮エンコーダを導入する。
論文 参考訳(メタデータ) (2025-01-12T06:57:06Z) - Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - Triple-Encoders: Representations That Fire Together, Wire Together [51.15206713482718]
コントラスト学習(Contrastive Learning)は、バイエンコーダを介して発話間の相対距離を埋め込み空間に符号化する表現学習法である。
本研究では,これら独立に符号化された発話から分散発話混合物を効率よく計算する三重エンコーダを提案する。
トリプルエンコーダはバイエンコーダよりも大幅に改善され、シングルベクトル表現モデルよりもゼロショットの一般化が向上することがわかった。
論文 参考訳(メタデータ) (2024-02-19T18:06:02Z) - UniXcoder: Unified Cross-Modal Pre-training for Code Representation [65.6846553962117]
プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。
木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。
我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
論文 参考訳(メタデータ) (2022-03-08T04:48:07Z) - Non-autoregressive End-to-end Speech Translation with Parallel
Autoregressive Rescoring [83.32560748324667]
本稿では,非自己回帰モデルに基づく効率的なエンドツーエンド音声翻訳(E2E-ST)フレームワークについて述べる。
我々は,共有エンコーダ上にNARデコーダと補助的な浅層ARデコーダを備えた,Orthrosと呼ばれる統一NAR E2E-STフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-09T16:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。