論文の概要: Hierarchical Token Prepending: Enhancing Information Flow in Decoder-based LLM Embeddings
- arxiv url: http://arxiv.org/abs/2511.14868v1
- Date: Tue, 18 Nov 2025 19:37:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.505698
- Title: Hierarchical Token Prepending: Enhancing Information Flow in Decoder-based LLM Embeddings
- Title(参考訳): 階層型トークン予測:デコーダベースのLLM埋め込みにおける情報フローの強化
- Authors: Xueying Ding, Xingyue Huang, Mingxuan Ju, Liam Collins, Yozen Liu, Leman Akoglu, Neil Shah, Tong Zhao,
- Abstract要約: 本稿では,注目レベルの圧縮と読み出しレベルのオーバーシャッシングを緩和する階層型トークンプレッペンディングを提案する。
HTPは、入力をブロックに分割し、ブロックレベルの要約トークンをその後のブロックにプリペンドし、後方情報フローの経路を作成する。
シンプルなアーキテクチャに依存しない方法として、HTPはゼロショットモデルと微調整モデルの両方を強化し、優れた長期文書埋め込みへのスケーラブルなルートを提供する。
- 参考スコア(独自算出の注目度): 52.49524240846879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models produce powerful text embeddings, but their causal attention mechanism restricts the flow of information from later to earlier tokens, degrading representation quality. While recent methods attempt to solve this by prepending a single summary token, they over-compress information, hence harming performance on long documents. We propose Hierarchical Token Prepending (HTP), a method that resolves two critical bottlenecks. To mitigate attention-level compression, HTP partitions the input into blocks and prepends block-level summary tokens to subsequent blocks, creating multiple pathways for backward information flow. To address readout-level over-squashing, we replace last-token pooling with mean-pooling, a choice supported by theoretical analysis. HTP achieves consistent performance gains across 11 retrieval datasets and 30 general embedding benchmarks, especially in long-context settings. As a simple, architecture-agnostic method, HTP enhances both zero-shot and finetuned models, offering a scalable route to superior long-document embeddings.
- Abstract(参考訳): 大規模言語モデルは強力なテキスト埋め込みを生成するが、その因果的注意機構は、後のトークンから以前のトークンへの情報の流れを制限し、表現品質を劣化させる。
最近の手法では、単一の要約トークンをプリプレプションすることでこの問題を解決しようとするが、情報を過剰に圧縮し、長いドキュメントのパフォーマンスを損なう。
本稿では,2つの重要なボトルネックを解決する手法である階層型トークン予測(HTP)を提案する。
注意レベル圧縮を緩和するために、HTPは入力をブロックに分割し、ブロックレベルの要約トークンをその後のブロックにプリペンドし、後方情報フローのための複数の経路を生成する。
読み出しレベルのオーバースカッシングに対処するため、理論的解析によって支持される選択である平均プールに終止値プーリングを置き換える。
HTPは11の検索データセットと30の一般的な埋め込みベンチマークで一貫したパフォーマンス向上を実現している。
シンプルなアーキテクチャに依存しない方法として、HTPはゼロショットモデルと微調整モデルの両方を強化し、優れた長期文書埋め込みへのスケーラブルなルートを提供する。
関連論文リスト
- CompactPrompt: A Unified Pipeline for Prompt Data Compression in LLM Workflows [0.9275065651255189]
大規模言語モデル(LLM)は強力な推論と生成能力を提供するが、かなりのランタイムコストを発生させる。
我々は,高速なプロンプト圧縮と軽量なファイルレベルのデータ圧縮を融合したエンドツーエンドパイプラインであるCompactPromptを紹介する。
論文 参考訳(メタデータ) (2025-10-20T19:31:11Z) - ImpliRet: Benchmarking the Implicit Fact Retrieval Challenge [50.93758649363798]
Impliretは、推論の課題をドキュメント側処理にシフトするベンチマークである。
我々は,この環境下で苦戦している,疎水・密集したレトリバーの幅を評価した。
論文 参考訳(メタデータ) (2025-06-17T11:08:29Z) - BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで、大きな言語モデル(LLM)を補完することができる。
本稿では,クエリ対応マルチホップ推論を行う軽量なアプローチであるBRIEFを提案する。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - ChuLo: Chunk-Level Key Information Representation for Long Document Understanding [11.29459225491404]
ChuLoは長い文書理解のための新しいチャンク表現手法である。
提案手法は,情報損失を最小限に抑え,トランスフォーマーモデルの有効性を向上させる。
論文 参考訳(メタデータ) (2024-10-14T22:06:54Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - SDR: Efficient Neural Re-ranking using Succinct Document Representation [4.9278175139681215]
本稿では, 強調圧縮した中間文書表現を演算する文書表現方式を提案する。
提案手法は効率が良く, 同一品質の圧縮速度が4x-11.6倍向上した。
論文 参考訳(メタデータ) (2021-10-03T07:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。