論文の概要: Hypernym Mercury: Token Optimization Through Semantic Field Constriction And Reconstruction From Hypernyms. A New Text Compression Method
- arxiv url: http://arxiv.org/abs/2505.08058v2
- Date: Wed, 14 May 2025 20:57:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 12:00:18.768965
- Title: Hypernym Mercury: Token Optimization Through Semantic Field Constriction And Reconstruction From Hypernyms. A New Text Compression Method
- Title(参考訳): Hypernym Mercury: 意味的フィールドの制限とハイパーネムからの再構成によるトーケン最適化 : 新しいテキスト圧縮法
- Authors: Chris Forrester, Octavia Sulea,
- Abstract要約: 本稿では,新しいテキスト表現方式と,段落の単語レベルのセマンティック圧縮を導入する。
結果が,複数のジャンルやモデルにまたがって,段落レベルでどのように保持されているかを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compute optimization using token reduction of LLM prompts is an emerging task in the fields of NLP and next generation, agentic AI. In this white paper, we introduce a novel (patent pending) text representation scheme and a first-of-its-kind word-level semantic compression of paragraphs that can lead to over 90% token reduction, while retaining high semantic similarity to the source text. We explain how this novel compression technique can be lossless and how the detail granularity is controllable. We discuss benchmark results over open source data (i.e. Bram Stoker's Dracula available through Project Gutenberg) and show how our results hold at the paragraph level, across multiple genres and models.
- Abstract(参考訳): LLMプロンプトのトークン還元を用いた計算最適化は、NLPおよび次世代エージェントAIの分野における新たな課題である。
この白書では,新しいテキスト表現方式と,90%以上のトークン削減につながる段落の単語レベルのセマンティック圧縮を導入するとともに,ソーステキストと高いセマンティックな類似性を保っている。
本稿では、この新しい圧縮技術がいかに損なわれやすいか、どのように詳細が制御可能であるかを説明する。
オープンソースデータ(例えば、Project Gutenbergを通じて利用可能なBram StokerのDracula)に対するベンチマーク結果について議論し、複数のジャンルやモデルにわたって、私たちの結果が段落レベルでどのように保持されているかを示します。
関連論文リスト
- Token-Level Graphs for Short Text Classification [1.6819960041696331]
本稿では,事前学習言語モデル(PLM)を用いて得られたトークンに基づいて,完全にテキストグラフを構築する手法を提案する。
本手法は文脈情報や意味情報を抽出し,語彙制約を克服し,文脈に依存した単語の意味を抽出する。
実験により,本手法が既存の手法で高いスコアやオンパー性能を連続的に達成する方法が実証された。
論文 参考訳(メタデータ) (2024-12-17T10:19:44Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization [76.57699934689468]
ニューラルモデルの性能を高めるために,デコーダ側で詳細なTokenレベル検索強化機構(Tram)を提案する。
文脈的コードセマンティクスの取得におけるトークンレベルの検索の課題を克服するために,コードセマンティクスを個々の要約トークンに統合することを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:02:04Z) - Semantic Compression With Large Language Models [1.0874100424278175]
大規模言語モデル(LLM)は、情報検索、質問応答、要約、コード生成タスクに革命をもたらしている。
LLMは本質的に、一度に処理できる入力トークンと出力トークンの数によって制限される。
本稿では,LLMの研究への3つの貢献について述べる。
論文 参考訳(メタデータ) (2023-04-25T01:47:05Z) - Momentum Decoding: Open-ended Text Generation As Graph Exploration [49.812280360794894]
自動回帰言語モデル(LM)を用いたオープンエンドテキスト生成は、自然言語処理における中核的なタスクの1つである。
我々は、新しい視点から、すなわち、有向グラフ内の探索プロセスとして、オープンエンドテキスト生成を定式化する。
本稿では,新しい復号法であるtextitmomentum decodingを提案する。
論文 参考訳(メタデータ) (2022-12-05T11:16:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。