論文の概要: CoT2Align: Cross-Chain of Thought Distillation via Optimal Transport Alignment for Language Models with Different Tokenizers
- arxiv url: http://arxiv.org/abs/2502.16806v1
- Date: Mon, 24 Feb 2025 03:30:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:55:20.046564
- Title: CoT2Align: Cross-Chain of Thought Distillation via Optimal Transport Alignment for Language Models with Different Tokenizers
- Title(参考訳): CoT2Align:異なるトケナイザを持つ言語モデルに対する最適輸送アライメントによる思考蒸留のクロスチェーン
- Authors: Anh Duc Le, Tu Vu, Nam Le Hai, Nguyen Thi Ngoc Diep, Linh Ngo Van, Trung Le, Thien Huu Nguyen,
- Abstract要約: 大規模言語モデル(LLM)は、様々なNLPタスクにまたがる最先端のパフォーマンスを実現するが、高い計算コストとメモリ制約のためにデプロイメントの課題に直面している。
知識蒸留(KD)は、大きな教師モデルからより小さな学生モデルに知識を伝達する、有望なソリューションである。
CoT2Alignは,Chain-of-Thought(CoT)拡張を統合した普遍的なKDフレームワークであり,Cross-CoTアライメントを導入して推論伝達を強化する。
- 参考スコア(独自算出の注目度): 45.59157559718677
- License:
- Abstract: Large Language Models (LLMs) achieve state-of-the-art performance across various NLP tasks but face deployment challenges due to high computational costs and memory constraints. Knowledge distillation (KD) is a promising solution, transferring knowledge from large teacher models to smaller student models. However, existing KD methods often assume shared vocabularies and tokenizers, limiting their flexibility. While approaches like Universal Logit Distillation (ULD) and Dual-Space Knowledge Distillation (DSKD) address vocabulary mismatches, they overlook the critical \textbf{reasoning-aware distillation} aspect. To bridge this gap, we propose CoT2Align a universal KD framework that integrates Chain-of-Thought (CoT) augmentation and introduces Cross-CoT Alignment to enhance reasoning transfer. Additionally, we extend Optimal Transport beyond token-wise alignment to a sequence-level and layer-wise alignment approach that adapts to varying sequence lengths while preserving contextual integrity. Comprehensive experiments demonstrate that CoT2Align outperforms existing KD methods across different vocabulary settings, improving reasoning capabilities and robustness in domain-specific tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なNLPタスクにまたがる最先端のパフォーマンスを実現するが、高い計算コストとメモリ制約のためにデプロイメントの課題に直面している。
知識蒸留(KD)は、大きな教師モデルからより小さな学生モデルに知識を伝達する、有望なソリューションである。
しかしながら、既存のKDメソッドは、しばしば共通語彙とトークン化子を仮定し、柔軟性を制限している。
Universal Logit Distillation (ULD) や Dual-Space Knowledge Distillation (DSKD) といったアプローチは語彙ミスマッチに対処するが、批判的な \textbf{reasoning-aware distillation} の側面を見落としている。
このギャップを埋めるために、我々は、Chain-of-Thought(CoT)拡張を統合した普遍的なKDフレームワークであるCoT2Alignを提案し、推論伝達を強化するためにCross-CoTアライメントを導入した。
さらに、トークンワイドアライメントを超えて、コンテキスト整合性を維持しつつ、さまざまなシーケンス長に適応するシーケンスレベルおよびレイヤワイドアライメントアプローチを拡張する。
CoT2Alignは、さまざまな語彙設定で既存のKDメソッドよりも優れており、推論能力とドメイン固有のタスクの堅牢性を改善している。
関連論文リスト
- Enhancing Cross-Tokenizer Knowledge Distillation with Contextual Dynamical Mapping [85.48043537327258]
コンテキスト動的マッピング(CDM)は、新しいクロストケナイザー蒸留フレームワークである。
文脈情報を用いてシーケンスアライメントの精度を高め、語彙マッピングを動的に改善する。
本手法は, 種々のベンチマークにおいて, 既存のクロストケナイザー蒸留ベースラインに対して有意な優位性を示す。
論文 参考訳(メタデータ) (2025-02-16T12:46:07Z) - Multi-Level Optimal Transport for Universal Cross-Tokenizer Knowledge Distillation on Language Models [81.74999702045339]
マルチレベル最適輸送(MultiLevelOT)は、普遍的なクロストケナイザー知識蒸留のための最適な輸送を促進する新しいアプローチである。
本手法は,教師と生徒のロジット分布をトークンレベルとシーケンスレベルの両方で整列する。
トークンレベルでは、MultiLevelOTはグローバルとローカルの両方の情報を統合する。
論文 参考訳(メタデータ) (2024-12-19T04:51:06Z) - TAS: Distilling Arbitrary Teacher and Student via a Hybrid Assistant [52.0297393822012]
異質な教師と学生間の機能的知識の伝達を容易にするために,橋梁としてアシスタントモデルを導入する。
提案した設計原理の中では, クロスアーキテクチャ帰納バイアスとモジュール関数の利点を組み合わせたアシスタントモデルが提案されている。
提案手法は, CNN, ViT, 空間KDの同種モデルペアと任意の異種組み合わせを用いて評価する。
論文 参考訳(メタデータ) (2024-10-16T08:02:49Z) - Dual-Space Knowledge Distillation for Large Language Models [39.798007795604676]
KDのための2つのモデルの出力空間を統一する二空間知識蒸留(DSKD)フレームワークを提案する。
我々のフレームワークは、現在のフレームワークのようなKDの様々な距離関数と互換性があるだけでなく、語彙に関係なく、任意の2つのLLM間のKDもサポートしています。
論文 参考訳(メタデータ) (2024-06-25T07:25:15Z) - Learning to Maximize Mutual Information for Chain-of-Thought Distillation [13.660167848386806]
Distilling Step-by-Step(DSS)は、より大きなモデルよりも優れた推論能力を持つ小さなモデルを投入することで、約束を証明している。
しかし、DSSは2つのトレーニングタスクの本質的な関係を見落とし、CoT知識とラベル予測のタスクの非効率な統合につながる。
学習に基づく手法を用いて,この問題を解決するための変分手法を提案する。
論文 参考訳(メタデータ) (2024-03-05T22:21:45Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。