論文の概要: SRA: Span Representation Alignment for Large Language Model Distillation
- arxiv url: http://arxiv.org/abs/2605.01205v1
- Date: Sat, 02 May 2026 02:44:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.63899
- Title: SRA: Span Representation Alignment for Large Language Model Distillation
- Title(参考訳): SRA: 大規模言語モデル蒸留のためのスパン表現アライメント
- Authors: Quoc Phong Dao, Hoang Son Nguyen, Pham Khanh Chi, Tung Nguyen, Linh Ngo Van, Nguyen Thi Ngoc Diep, Trung Le,
- Abstract要約: クロスTokenizer Knowledge Distillation (CTKD)は、大きな言語モデルと小さな学生の間で知識の伝達を可能にする。
マルチパーティクル力学系の物理レンズを通してCTKDを再構成する新しいフレームワークであるSRAを紹介する。
SRAは、アライメントの基本単位をトークンからロバストでトークンライザに依存しないスパンにシフトする。
- 参考スコア(独自算出の注目度): 16.2920177577018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-Tokenizer Knowledge Distillation (CTKD) enables knowledge transfer between a large language model and a smaller student, even when they employ different tokenizers. While existing approaches mainly focus on token-level alignment strategies, which are often brittle and sensitive to discrepancies between tokenizers, we argue that the method of aggregating tokens into more robust representations before distillation is of equal importance. In this paper, we introduce \textbf{SRA} (\textbf{S}pan \textbf{R}epresentation \textbf{A}lignment for Large Language Model Distillation), a novel framework that reframes CTKD through the physical lens of Multi-Particle Dynamical Systems. SRA shifts the fundamental unit of alignment from tokens to robust, tokenizer-agnostic spans. We model each span as a cluster of particles and represent its state by its Center of Mass (CoM) - an attention-weighted average that captures rich semantic information. We leverage the concept of span centers of mass with attention-derived weighting to prioritize the most salient spans. In addition, we employ a geometric regularizer to preserve the structural integrity of the representation space and introduce aligned span logit distillation to enhance knowledge transfer across models. In challenging cross-architecture distillation experiments, SRA consistently and significantly outperforms state-of-the-art CTKD baselines, validating our physically-grounded approach.
- Abstract(参考訳): クロスTokenizer Knowledge Distillation (CTKD)は、大きな言語モデルと小さな学生の間の知識伝達を可能にする。
既存の手法は主にトークンレベルのアライメント戦略に焦点が当てられているが、トークン化前のトークンをより堅牢な表現に集約する方法は、同様に重要であると論じている。
本稿では,マルチパーティクル力学系の物理レンズを通してCTKDを再構成する新しいフレームワークである \textbf{SRA} (\textbf{S}pan \textbf{R}epresentation \textbf{A}lignment for Large Language Model Distillation) を紹介する。
SRAは、アライメントの基本単位をトークンからロバストでトークンライザに依存しないスパンにシフトする。
私たちはそれぞれを粒子の集合としてモデル化し、その状態を表すのがCenter of Mass(CoM)です。
マスのスパン中心と注意由来の重み付けという概念を利用して、最も顕著なスパンを優先順位付けする。
さらに,表現空間の構造的整合性を維持するために幾何正則化器を用い,モデル間の知識伝達を高めるためにロジット蒸留の整合性を導入する。
クロスアーキテクチャ蒸留実験において、SRAは一貫して、最先端のCTKDベースラインを著しく上回り、物理的に座屈したアプローチを検証した。
関連論文リスト
- Towards Foundation Models for 3D Scene Understanding: Instance-Aware Self-Supervised Learning for Point Clouds [53.82500407523346]
PointINSは、幾何学的学習を通じてポイントクラウド表現を豊かにする、インスタンス指向の自己組織化フレームワークである。
PointINSは、屋内のインスタンスセグメンテーションで平均+3.5%のmAP改善、屋外のパン光学セグメンテーションで+4.1%のPQゲインを達成している。
論文 参考訳(メタデータ) (2026-03-26T08:31:06Z) - Dual-Space Knowledge Distillation with Key-Query Matching for Large Language Models with Vocabulary Mismatch [2.752817022620644]
大規模言語モデル(LLM)は、言語タスク全体にわたって最先端(SOTA)のパフォーマンスを達成するが、そのサイズとリソース要求のため、デプロイにはコストがかかる。
知識蒸留(KD)は、より小さな学生モデルを訓練して、より大きな教師モデルを模倣し、大きなパフォーマンス損失を伴わずに効率を向上することで、この問題に対処する。
論文 参考訳(メタデータ) (2026-03-23T14:53:55Z) - StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。
我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。
スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T11:35:05Z) - Context Patch Fusion With Class Token Enhancement for Weakly Supervised Semantic Segmentation [5.859471574310312]
本稿では,CPF-CTE(Context Patch Fusion with Class Token Enhancement)フレームワークを提案する。
CPF-CTEは、パッチ間のコンテキスト関係を利用して特徴表現を強化し、セグメンテーションを改善する。
CPF-CTEは従来のWSSS手法を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-01-21T07:12:23Z) - SASA: Semantic-Aware Contrastive Learning Framework with Separated Attention for Triple Classification [0.0]
トリプル分類(TC)は、知識グラフからトリプルの妥当性を決定することを目的としている。
textbfSASA - 注意分離機構と意味認識型コントラスト学習(CL)によるTCモデルの強化を目的とした新しいフレームワーク
2つのベンチマークデータセットによる実験結果から、SASAは最先端の手法を大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-19T13:19:00Z) - Multi-label Classification with Panoptic Context Aggregation Networks [61.82285737410154]
本稿では,多次幾何学的文脈を階層的に統合する新しいアプローチであるDeep Panoptic Context Aggregation Network(PanCAN)を紹介する。
PanCANは、ランダムウォークとアテンションメカニズムを組み合わせることで、各スケールで複数階の近傍関係を学習する。
NUS-WIDE、PASCAL VOC、2007、MS-COCOベンチマークの実験は、PanCANが一貫して競争結果を達成することを示した。
論文 参考訳(メタデータ) (2025-12-29T14:16:21Z) - Latent Representation Learning in Heavy-Ion Collisions with MaskPoint Transformer [2.6610943214001765]
本稿では,トランスフォーマーベースのオートエンコーダについて,自己教師付き事前学習と教師付き微調整という2段階のパラダイムで学習した。
エンコーダはラベルのないHICデータから直接潜在表現を学習し、コンパクトで情報豊富な特徴空間を提供する。
その結果,HICにおける特徴学習の汎用的かつ堅牢な基盤として2段階の枠組みを確立し,クォークグルーオンプラズマ特性のより強力な解析への扉を開くことができた。
論文 参考訳(メタデータ) (2025-10-08T06:27:10Z) - Patch-Level Kernel Alignment for Dense Self-Supervised Learning [7.5866326278176075]
Patch-level Kernel Alignment (PaKA) は、非パラメトリックなカーネルベースのアプローチで、事前学習した視覚エンコーダの高密度表現をポスト(pre)トレーニングで改善する。
本フレームワークは,事前学習モデル上に軽量な後学習段階を施すことにより,高密度表現を改善する。
1つのGPUで14時間追加のトレーニングを行うだけで、この手法は様々な高密度ビジョンベンチマークで最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2025-09-06T05:42:32Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。