論文の概要: Hierarchical Token Prepending: Enhancing Information Flow in Decoder-based LLM Embeddings
- arxiv url: http://arxiv.org/abs/2511.14868v1
- Date: Tue, 18 Nov 2025 19:37:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.505698
- Title: Hierarchical Token Prepending: Enhancing Information Flow in Decoder-based LLM Embeddings
- Title(参考訳): 階層型トークン予測:デコーダベースのLLM埋め込みにおける情報フローの強化
- Authors: Xueying Ding, Xingyue Huang, Mingxuan Ju, Liam Collins, Yozen Liu, Leman Akoglu, Neil Shah, Tong Zhao,
- Abstract要約: 本稿では,注目レベルの圧縮と読み出しレベルのオーバーシャッシングを緩和する階層型トークンプレッペンディングを提案する。
HTPは、入力をブロックに分割し、ブロックレベルの要約トークンをその後のブロックにプリペンドし、後方情報フローの経路を作成する。
シンプルなアーキテクチャに依存しない方法として、HTPはゼロショットモデルと微調整モデルの両方を強化し、優れた長期文書埋め込みへのスケーラブルなルートを提供する。
- 参考スコア(独自算出の注目度): 52.49524240846879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models produce powerful text embeddings, but their causal attention mechanism restricts the flow of information from later to earlier tokens, degrading representation quality. While recent methods attempt to solve this by prepending a single summary token, they over-compress information, hence harming performance on long documents. We propose Hierarchical Token Prepending (HTP), a method that resolves two critical bottlenecks. To mitigate attention-level compression, HTP partitions the input into blocks and prepends block-level summary tokens to subsequent blocks, creating multiple pathways for backward information flow. To address readout-level over-squashing, we replace last-token pooling with mean-pooling, a choice supported by theoretical analysis. HTP achieves consistent performance gains across 11 retrieval datasets and 30 general embedding benchmarks, especially in long-context settings. As a simple, architecture-agnostic method, HTP enhances both zero-shot and finetuned models, offering a scalable route to superior long-document embeddings.
- Abstract(参考訳): 大規模言語モデルは強力なテキスト埋め込みを生成するが、その因果的注意機構は、後のトークンから以前のトークンへの情報の流れを制限し、表現品質を劣化させる。
最近の手法では、単一の要約トークンをプリプレプションすることでこの問題を解決しようとするが、情報を過剰に圧縮し、長いドキュメントのパフォーマンスを損なう。
本稿では,2つの重要なボトルネックを解決する手法である階層型トークン予測(HTP)を提案する。
注意レベル圧縮を緩和するために、HTPは入力をブロックに分割し、ブロックレベルの要約トークンをその後のブロックにプリペンドし、後方情報フローのための複数の経路を生成する。
読み出しレベルのオーバースカッシングに対処するため、理論的解析によって支持される選択である平均プールに終止値プーリングを置き換える。
HTPは11の検索データセットと30の一般的な埋め込みベンチマークで一貫したパフォーマンス向上を実現している。
シンプルなアーキテクチャに依存しない方法として、HTPはゼロショットモデルと微調整モデルの両方を強化し、優れた長期文書埋め込みへのスケーラブルなルートを提供する。
関連論文リスト
- Stacked from One: Multi-Scale Self-Injection for Context Window Extension [69.24689919827817]
Modelnameは、多粒度コンテキスト圧縮とクエリ対応情報取得に基づく新しいフレームワークである。
modelnameachievesパフォーマンスは、強いベースラインと同等か、優れている。
論文 参考訳(メタデータ) (2026-03-05T03:16:16Z) - Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding [102.88996030431662]
本稿では,文書解析タスクの学習自由かつ高効率な高速化手法を提案する。
投機的復号化にインスパイアされた私たちは、将来のトークンのバッチを予測するために、ドラフトモデルとして軽量な文書解析パイプラインを使用します。
汎用OmniDocBenchに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2026-02-13T14:22:10Z) - Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation [49.48204107529758]
我々はトークンオーバーフローを、圧縮された表現が与えられたクエリに応答する十分な情報を含んでいない状態として定義する。
本稿では,非圧縮トークン表現から,クエリ非依存の飽和統計を確実に分離することを見出した。
クエリとコンテキストの両方のxRAG表現上の軽量なプローブ分類器は平均0.72 AUC-ROCでオーバーフローを検出する。
これらの結果は、クエリ非依存の診断からクエリ対応検出まで進歩し、低コストのプレLLMゲーティングにより、圧縮によるエラーを軽減できる。
論文 参考訳(メタデータ) (2026-02-12T18:15:08Z) - CompactPrompt: A Unified Pipeline for Prompt Data Compression in LLM Workflows [0.9275065651255189]
大規模言語モデル(LLM)は強力な推論と生成能力を提供するが、かなりのランタイムコストを発生させる。
我々は,高速なプロンプト圧縮と軽量なファイルレベルのデータ圧縮を融合したエンドツーエンドパイプラインであるCompactPromptを紹介する。
論文 参考訳(メタデータ) (2025-10-20T19:31:11Z) - ImpliRet: Benchmarking the Implicit Fact Retrieval Challenge [50.93758649363798]
Impliretは、推論の課題をドキュメント側処理にシフトするベンチマークである。
我々は,この環境下で苦戦している,疎水・密集したレトリバーの幅を評価した。
論文 参考訳(メタデータ) (2025-06-17T11:08:29Z) - Emulating Retrieval Augmented Generation via Prompt Engineering for Enhanced Long Context Comprehension in LLMs [23.960451986662996]
本稿では,レトリーバル拡張生成(RAG)を特殊エンジニアリングとチェーンオブ思考推論によりエミュレートする手法を提案する。
我々は,BABILong から選択したタスクに対するアプローチを評価し,大量の散逸テキストを用いた標準 bAbI QA 問題をインターリーブする。
論文 参考訳(メタデータ) (2025-02-18T02:49:40Z) - BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで、大きな言語モデル(LLM)を補完することができる。
本稿では,クエリ対応マルチホップ推論を行う軽量なアプローチであるBRIEFを提案する。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - ChuLo: Chunk-Level Key Information Representation for Long Document Understanding [11.29459225491404]
ChuLoは長い文書理解のための新しいチャンク表現手法である。
提案手法は,情報損失を最小限に抑え,トランスフォーマーモデルの有効性を向上させる。
論文 参考訳(メタデータ) (2024-10-14T22:06:54Z) - REXEL: An End-to-end Model for Document-Level Relation Extraction and Entity Linking [11.374031643273941]
REXELは文書レベルcIE(DocIE)の共同作業のための高効率かつ高精度なモデルである
同様の環境では、競合する既存のアプローチよりも平均11倍高速です。
速度と精度の組み合わせにより、REXELはWebスケールで構造化された情報を抽出する正確なコスト効率のシステムとなる。
論文 参考訳(メタデータ) (2024-04-19T11:04:27Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - SDR: Efficient Neural Re-ranking using Succinct Document Representation [4.9278175139681215]
本稿では, 強調圧縮した中間文書表現を演算する文書表現方式を提案する。
提案手法は効率が良く, 同一品質の圧縮速度が4x-11.6倍向上した。
論文 参考訳(メタデータ) (2021-10-03T07:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。