論文の概要: MTA: Multi-Granular Trajectory Alignment for Large Language Model Distillation
- arxiv url: http://arxiv.org/abs/2605.01374v1
- Date: Sat, 02 May 2026 10:52:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.738156
- Title: MTA: Multi-Granular Trajectory Alignment for Large Language Model Distillation
- Title(参考訳): MTA:大規模言語モデル蒸留のための多角形軌道アライメント
- Authors: Pham Khanh Chi, Quoc Phong Dao, Thuat Nguyen, Linh Ngo Van, Trung Le, Thanh Hong Nguyen,
- Abstract要約: 本稿では,教師と生徒の表現を階層的な変換軌道に沿って整列させる枠組みを提案する。
下層は語彙情報を保存するために単語レベルで整列され、上層はフレーズレベルのスパンで構成意味を捉えている。
- 参考スコア(独自算出の注目度): 17.375971374283385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation is a key technique for compressing large language models (LLMs), but most existing methods align representations at fixed layers or token-level outputs, ignoring how representations evolve across depth. As a result, the student is only weakly guided to capture the teacher's internal relational structure during distillation, which limits knowledge transfer. To address this limitation, we propose Multi-Granular Trajectory Alignment (MTA), a framework that aligns teacher and student representations along their layer-wise transformation trajectory. MTA adopts a layer-adaptive strategy: lower layers are aligned at the word level to preserve lexical information, while higher layers operate on phrase-level spans (e.g., noun and verb phrases) to capture compositional semantics. We instantiate this idea through a Dynamic Structural Alignment loss that matches the relative geometry among semantic units within each layer. This design is motivated by empirical findings that Transformer representations become increasingly abstract with depth, and is also consistent with linguistic views in which higher-level meaning emerges through the composition of lower-level lexical units. We further incorporate a Hidden Representation Alignment loss to directly align selected teacher-student layers. Experiments show that MTA consistently outperforms state-of-the-art baselines on standard benchmarks, with ablations confirming the contribution of each component.
- Abstract(参考訳): 知識蒸留は、大きな言語モデル(LLM)を圧縮する鍵となる技法であるが、既存のほとんどの手法は固定層やトークンレベルの出力で表現を整列させ、表現が深さにわたってどのように進化するかを無視している。
その結果、学生は、知識伝達を制限する蒸留中に教師の内部関係構造を捉えるために弱められるのみとなる。
この制限に対処するために,教師と生徒の表現を階層的に変換するフレームワークであるMTA(Multi-Granular Trajectory Alignment)を提案する。
下位層は語彙情報を保存するために単語レベルで整列され、上位層はフレーズレベルのスパン(例:名詞、動詞句)で構成意味を捉える。
我々は、各層内の意味単位間の相対幾何学と一致する動的構造アライメント損失により、このアイデアをインスタンス化する。
このデザインは、トランスフォーマー表現が深く抽象化されていくという経験的発見に動機付けられており、低レベルの語彙単位の合成を通じて高レベルの意味が現れる言語的見解とも一致している。
さらに,Hidden Representation Alignment Losを組み込んで,選択した教師-学生層を直接整列させる。
実験によると、MTAは標準ベンチマークにおける最先端のベースラインを一貫して上回り、各コンポーネントの貢献を裏付けている。
関連論文リスト
- Explainable AI: Context-Aware Layer-Wise Integrated Gradients for Explaining Transformer Models [13.707653566827704]
トランスフォーマーモデルは、ドメインやタスク間で最先端のパフォーマンスを達成するが、その深い階層化表現により、予測の解釈が困難になる。
既存の説明可能性法は最終層属性に依存し、局所的なトークンレベルの属性か、統一せずにグローバルな注意パターンをキャプチャする。
本稿では,各トランスフォーマーブロック内の階層的に統合されたグラディエントを計算し,これらのトークンレベルの属性をクラス固有の注意勾配と融合する階層型属性フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-18T17:03:10Z) - DVLA-RL: Dual-Level Vision-Language Alignment with Reinforcement Learning Gating for Few-Shot Learning [53.36809572236361]
少数のサンプルしか持たない新しいカテゴリーに一般化することを目的としている。
最近のアプローチでは、クラス名から派生したセマンティックな埋め込みで視覚表現を豊かにするために、大きな言語モデルが組み込まれている。
強化学習ゲーティング(DVLA-RL)を用いたデュアルレベル視覚言語アライメントを提案する。
論文 参考訳(メタデータ) (2026-01-31T16:09:37Z) - Structured Agent Distillation for Large Language Model [56.38279355868093]
本研究では,LLMをベースとした大規模エージェントを小さな学生モデルに圧縮するフレームワークであるStructured Agent Distillationを提案する。
提案手法は, [REASON] と [ACT] にトラジェクトリを分割し, 各コンポーネントを教師の行動に合わせるためにセグメント特異的な損失を適用した。
ALFWorld、HotPotQA-ReAct、WebShopの実験は、我々のアプローチがトークンレベルと模倣学習のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-20T02:01:55Z) - Learning and Evaluating Hierarchical Feature Representations [3.770103075126785]
我々は、直交部分空間の階層的構成(Hier-COS)という新しい枠組みを提案する。
Hier-COSは、与えられた分類木の構造と整合した設計により、深い特徴埋め込みをベクトル空間にマッピングすることを学ぶ。
Hier-COSはすべてのデータセットにまたがって最先端の階層的パフォーマンスを実現し,同時に1つのケースを除いてトップ1の精度を上回ります。
論文 参考訳(メタデータ) (2025-03-10T20:59:41Z) - Layer by Layer: Uncovering Hidden Representations in Language Models [28.304269706993942]
中間層がよりリッチな表現をエンコードできることを示し、ダウンストリームタスクの幅広いパフォーマンスを改善することがよくある。
我々のフレームワークは、各層が情報圧縮と信号保存のバランスをとる方法を強調し、なぜ中層埋め込みが最終層の性能を上回るのかを明らかにする。
論文 参考訳(メタデータ) (2025-02-04T05:03:42Z) - Emergent effects of scaling on the functional hierarchies within large language models [0.0]
小型モデルによる解析(Llama-3.2-3b; 28層)
アイテムレベルのセマンティクスは、最も早く強く表される(層2-7)、次に2-item関係(層8-12)、続いて4-item類似(層10-15)
深いレイヤは、意味のある抽象化なしで、コンテキストウィンドウの初期部分から情報を圧縮する。
論文 参考訳(メタデータ) (2025-01-13T14:27:39Z) - Does Representation Matter? Exploring Intermediate Layers in Large Language Models [22.704926222438456]
大規模言語モデル(LLM)における中間表現の品質について検討する。
中間層は、最終層よりも下流のタスクに対してより情報的な表現をもたらすことがよくあります。
本研究は,LLMの内部力学とアーキテクチャ最適化とトレーニングのためのガイド戦略を照らしたものである。
論文 参考訳(メタデータ) (2024-12-12T18:48:51Z) - Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics [50.982315553104975]
本稿では,Llama2という人気言語モデルに対する語彙意味論のボトムアップ進化について検討する。
実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。
これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
論文 参考訳(メタデータ) (2024-03-03T13:14:47Z) - Unsupervised Distillation of Syntactic Information from Contextualized
Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。
この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。
我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文 参考訳(メタデータ) (2020-10-11T15:13:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。