論文の概要: OVD: On-policy Verbal Distillation
- arxiv url: http://arxiv.org/abs/2601.21968v1
- Date: Thu, 29 Jan 2026 16:48:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.007954
- Title: OVD: On-policy Verbal Distillation
- Title(参考訳): OVD: オンデマンドのバーバル蒸留
- Authors: Jing Xiong, Hui Shen, Shansan Gong, Yuxin Cheng, Jianghan Shen, Chaofan Tao, Haochen Tan, Haoli Bai, Lifeng Shang, Ngai Wong,
- Abstract要約: On-policy Verbal Distillation (OVD) は、トークンレベルの確率マッチングを軌道マッチングに置き換えるメモリ効率の高いフレームワークである。
OVDは、言語フィードバックを持つ教師モデルからのオンライン蒸留を可能にしながら、メモリ消費を劇的に削減する。
- 参考スコア(独自算出の注目度): 47.727229201069555
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Knowledge distillation offers a promising path to transfer reasoning capabilities from large teacher models to efficient student models; however, existing token-level on-policy distillation methods require token-level alignment between the student and teacher models, which restricts the student model's exploration ability, prevent effective use of interactive environment feedback, and suffer from severe memory bottlenecks in reinforcement learning. We introduce On-policy Verbal Distillation (OVD), a memory-efficient framework that replaces token-level probability matching with trajectory matching using discrete verbal scores (0--9) from teacher models. OVD dramatically reduces memory consumption while enabling on-policy distillation from teacher models with verbal feedback, and avoids token-level alignment, allowing the student model to freely explore the output space. Extensive experiments on Web question answering and mathematical reasoning tasks show that OVD substantially outperforms existing methods, delivering up to +12.9% absolute improvement in average EM on Web Q&A tasks and a up to +25.7% gain on math benchmarks (when trained with only one random samples), while also exhibiting superior training efficiency. Our project page is available at https://OVD.github.io
- Abstract(参考訳): 知識蒸留は、大きな教師モデルから効率的な学生モデルへの推論能力の伝達に有望な経路を提供するが、既存のトークンレベルのオンライン蒸留法では、学生モデルと教師モデルのトークンレベルのアライメントが必要であり、生徒モデルの探索能力を制限し、対話的な環境フィードバックの効果的な利用を防ぎ、強化学習における深刻な記憶ボトルネックに悩まされる。
本稿では,教師モデルからの個別の言語スコア (0-9) を用いて,トークンレベルの確率マッチングを軌跡マッチングに置き換えるメモリ効率のフレームワークであるOVDを導入する。
OVDは、教師モデルからの言語フィードバックによるオンライン蒸留を可能にしながら、メモリ消費を劇的に削減し、トークンレベルのアライメントを回避し、学生モデルが出力空間を自由に探索できるようにする。
ウェブ質問応答と数学的推論タスクに関する大規模な実験により、OVDは既存の手法を大幅に上回り、Web Q&Aタスクの平均EMは+12.9%向上し、数学ベンチマークでは+25.7%向上した。
プロジェクトのページはhttps://OVD.github.ioで公開されている。
関連論文リスト
- UCO: A Multi-Turn Interactive Reinforcement Learning Method for Adaptive Teaching with Large Language Models [59.693733170193944]
大規模言語モデル(LLM)は、教育環境において、回答提供者からインテリジェントな家庭教師へとシフトしている。
最近の強化学習アプローチはこの制限に対処するが、2つの重要な課題に直面している。
これらの課題に対処するために一方向認知最適化法(UCO)を提案する。
論文 参考訳(メタデータ) (2025-11-12T01:27:02Z) - Synthetic Adaptive Guided Embeddings (SAGE): A Novel Knowledge Distillation Method [1.5839621757142595]
本研究では,高学年モデル損失の地域において,動的にトレーニングデータを増強する適応蒸留フレームワークを提案する。
本手法は, 組込み空間における過小評価領域を同定し, 対象とする合成例を生成し, 学習指導を行う。
論文 参考訳(メタデータ) (2025-08-20T15:29:00Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Augmentation-Free Dense Contrastive Knowledge Distillation for Efficient
Semantic Segmentation [16.957139277317005]
Af-DCD(Augmentation-free Dense Contrastive Knowledge Distillation)は、新しいコントラスト蒸留学習パラダイムである。
Af-DCDはセマンティックセグメンテーションのためのコンパクトで正確なディープニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2023-12-07T09:37:28Z) - Improved knowledge distillation by utilizing backward pass knowledge in
neural networks [17.437510399431606]
知識蒸留(KD)は、モデル圧縮において重要な技術の一つである。
本研究では,教師の後方パスから知識を抽出し,新たな補助訓練サンプルを作成する。
自然言語処理(NLP)と言語理解(Language understanding)の応用において,この手法がいかにうまく利用できるかを示す。
論文 参考訳(メタデータ) (2023-01-27T22:07:38Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Compressing Visual-linguistic Model via Knowledge Distillation [43.73998154661652]
変圧器を用いた大規模視覚言語モデルを小型モデルに圧縮するための知識蒸留の研究を行う。
提案した蒸留は,画像キャプションおよび視覚的質問応答タスクにおける小型VLモデルの性能を有意に向上させることを示した。
論文 参考訳(メタデータ) (2021-04-05T18:02:17Z) - Generative Adversarial Simulator [2.3986080077861787]
強化学習における知識蒸留へのシミュレータフリーアプローチを提案する。
重要な課題は、学生に与えられた行動に対応する事例の多様さを学習させることである。
これは教師と学生の政策の間のシミュレータフリーな知識蒸留の初めての実演である。
論文 参考訳(メタデータ) (2020-11-23T15:31:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。