論文の概要: Soft-NBCE: Entropy-Weighted Chunk Fusion for Long-Context
- arxiv url: http://arxiv.org/abs/2606.01101v1
- Date: Sun, 31 May 2026 08:43:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.2061
- Title: Soft-NBCE: Entropy-Weighted Chunk Fusion for Long-Context
- Title(参考訳): ソフトNBCE:長期化のためのエントロピー重み付きチャンク核融合
- Authors: Shihao Ji, Mingyu Li, Zihui Song,
- Abstract要約: 離散チャンク選択をソフトエントロピー重み付きチャンク融合に置き換える軽量拡張であるSoft-NBCEを提案する。
また,LORAに基づく自己蒸留システムであるConsistency Distillationを提案する。
- 参考スコア(独自算出の注目度): 13.19850137760249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quadratic complexity of self-attention remains a bottleneck for Large Language Models (LLMs) processing ultra-long contexts. The Naive Bayes Cognitive Engine (NBCE) parallelizes long-context inference by chunking documents and routing to the lowest-entropy chunk at each decoding step. This hard-selection strategy causes semantic fragmentation during cross-chunk reasoning, as abrupt routing changes between adjacent tokens disrupt the model's contextual grounding. We present Soft-NBCE, a lightweight extension that replaces discrete chunk selection with soft entropy-weighted chunk fusion. A temperature-scaled Softmax over predictive entropies assigns continuous weights to all chunks, enabling log-space aggregation across chunk-conditioned distributions. To partially compensate for the conditional independence assumption introduced by chunking, we propose Consistency Distillation, a LoRA-based self-distillation that constrains the chunked logit distribution toward a full-context teacher via KL-divergence. On LongBench multi-hop benchmarks, Soft-NBCE with Consistency Distillation improves consistently over NBCE-style baselines (MuSiQue F1: 0.310 vs.\ 0.275 for Vanilla NBCE; HotpotQA F1: 0.479 vs.\ 0.427) while maintaining retrieval accuracy (NIAH-32K: 0.909) at O(L^2/n) peak memory.
- Abstract(参考訳): 自己注意の二次的な複雑さは、超長期のコンテキストを処理する大規模言語モデル(LLM)のボトルネックのままである。
Naive Bayes Cognitive Engine (NBCE)は、文書をチャンクし、各デコードステップで最低エントロピーチャンクにルーティングすることで、長いコンテキスト推論を並列化する。
このハードセレクション戦略は、隣接するトークン間の急激なルーティング変更がモデルのコンテキスト基底を乱すため、クロスチャンク推論中にセマンティックフラグメンテーションを引き起こす。
離散チャンク選択をソフトエントロピー重み付きチャンク融合に置き換える軽量拡張であるSoft-NBCEを提案する。
予測エントロピー上の温度スケールのソフトマックスは、すべてのチャンクに連続的な重みを割り当て、チャンク条件の分布にまたがるログ空間の集約を可能にする。
チャンキングによって引き起こされる条件付き独立仮定を部分的に補うために,KL分割により,チャンクされたロジット分布をフルコンテクストの教師に限定する,loRAベースの自己蒸留法であるConsistency Distillationを提案する。
LongBenchのマルチホップベンチマークでは、Soft-NBCE with Consistency DistillationはNBCEスタイルのベースライン(MuSiQue F1:0.310 vs.)よりも一貫して改善されている。
バニラNBCEの0.275;HotpotQA F1: 0.479 vs.
検索精度(NIAH-32K:0.909)をO(L^2/n)ピークメモリで維持する。
関連論文リスト
- ChunkFT: Byte-Streamed Optimization for Memory-Efficient Full Fine-Tuning [58.54940026861599]
textscChunkFTはメモリ効率の良い微調整フレームワークである。
textscChunkFTは、ネットワークアーキテクチャを変更することなく任意のサブテンソルの勾配計算を可能にする。
textscChunkFTは、既存のメモリ効率のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-05-20T13:44:44Z) - Label-Free Cross-Task LoRA Merging with Null-Space Compression [50.63908869296697]
我々は,ラベルフリーで出力に依存しない手法であるNull-Space Compression (NSC) Mergingを紹介した。
NSCは、従来のメソッドがタスクのサブセットに収まるバランスの取れたゲインを持つ20の異種視覚タスクに対して、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-27T11:34:41Z) - VSPrefill: Vertical-Slash Sparse Attention with Lightweight Indexing for Long-Context Prefilling [0.0]
既存のスパースアテンション手法は、コンテキスト適応性、オーバーヘッドのサンプリング、微調整コストのトレードオフに直面している。
注意分布に垂直スラッシュ構造パターンを用いる軽量なトレーニング機構であるVSPrefillを提案する。
VSPrefillは注意点の98.35%を保存し、コンテキスト長128kで平均4.95倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2026-03-03T09:24:58Z) - Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。
ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。
トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文 参考訳(メタデータ) (2026-02-26T11:08:39Z) - CycleSL: Server-Client Cyclical Update Driven Scalable Split Learning [60.59553507555341]
本稿では,新たなアグリゲーションフリーな分割学習フレームワークであるCycleSLを紹介する。
ブロック座標降下の交互化によって着想を得たCycleSLは、サーバサイドトレーニングを独立した高レベルの機械学習タスクとして扱う。
実験結果から,CycleSLのモデル性能向上効果が示唆された。
論文 参考訳(メタデータ) (2025-11-23T21:00:21Z) - Ensemble Threshold Calibration for Stable Sensitivity Control [0.0]
本稿では,数千万組の幾何対もの幾何に対して,過度に分散した正確なリコールを実現するエンド・ツー・エンドのフレームワークを提案する。
我々のアプローチは、小さなエラーで常にリコールターゲットにヒットし、他のキャリブレーションと比較して冗長な検証を減らし、単一のTPU v3コア上でエンドツーエンドで実行します。
論文 参考訳(メタデータ) (2025-10-02T15:22:28Z) - SPIRE: Conditional Personalization for Federated Diffusion Generative Models [7.8583640700306585]
Shared Backbone Personal Identity Representation Embeddings (SPIRE)は、FLで条件付き生成としてクライアント拡散ベースの生成をキャストするフレームワークである。
SPIREは、ネットワークを(i)人口レベルのスコア関数を学習する高容量なグローバルバックボーンと、(ii)ローカルデータ統計を符号化する軽量で学習可能なクライアント埋め込みに分解する。
我々の分析は、クライアントの埋め込みが共有スコアネットワークをパーソナライズするバイアスとしてどのように振舞うかを示唆している。
論文 参考訳(メタデータ) (2025-06-14T01:40:31Z) - Adaptive Deadline and Batch Layered Synchronized Federated Learning [66.93447103966439]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散エッジデバイス間で協調的なモデルトレーニングを可能にする。
我々は,レイヤワイドアグリゲーションのために,ラウンド単位の期限とユーザ固有のバッチサイズを共同で最適化する新しいフレームワークADEL-FLを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:59:18Z) - Thinking Forward: Memory-Efficient Federated Finetuning of Language Models [21.438831528354513]
連合学習環境における大規模言語モデル(LLM)の微調整には、リソース制約のあるデバイスに対して過剰なメモリを必要とする。
本稿では,LLMのトレーニング可能な重みをクライアント間で分割するFLアルゴリズムであるSpryを紹介する。
Spryはメモリフットプリントが低く、精度が高く、高速な収束を実現している。
論文 参考訳(メタデータ) (2024-05-24T13:37:48Z) - $\texttt{FedBC}$: Calibrating Global and Local Models via Federated
Learning Beyond Consensus [66.62731854746856]
フェデレートラーニング(FL)では、デバイス全体にわたるモデル更新の集約を通じて、グローバルモデルを協調的に学習する目的は、ローカル情報を通じたパーソナライズという目標に反対する傾向にある。
本研究では,このトレードオフを多基準最適化により定量的にキャリブレーションする。
私たちは、$texttFedBC$が、スイートデータセット間でグローバルおよびローカルモデルのテスト精度のメトリクスのバランスをとることを実証しています。
論文 参考訳(メタデータ) (2022-06-22T02:42:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。