論文の概要: Transformer Copilot: Learning from The Mistake Log in LLM Fine-tuning
- arxiv url: http://arxiv.org/abs/2505.16270v1
- Date: Thu, 22 May 2025 06:00:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.076486
- Title: Transformer Copilot: Learning from The Mistake Log in LLM Fine-tuning
- Title(参考訳): Transformer Copilot: LLMファインチューニングにおけるミステイクログからの学習
- Authors: Jiaru Zou, Yikun Ban, Zihao Li, Yunzhe Qi, Ruizhong Qiu, Ling Yang, Jingrui He,
- Abstract要約: そこで本研究では、ミステイクログ(Mistake Log)の概念を導入し、モデルの学習行動と繰り返しエラーを微調整を通して追跡する。
元のトランスフォーマーモデルをパイロットとして扱うことで,ロジットの修正によりパイロットの推論性能を向上するコパイロットモデルを設計する。
i)新しいCopilotモデル設計、(ii)Copilotが進化するMistake LogからPilotと一緒に継続的に学習する共同トレーニングパラダイム、(iii)CopilotがPilotを修正した融合推論パラダイムを紹介した、Pilot-Copilotフレームワーク全体の名称をTransformer Copilotと名付けます。
- 参考スコア(独自算出の注目度): 43.04412816198813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are typically adapted to downstream tasks through supervised fine-tuning on domain-specific data. While standard fine-tuning focuses on minimizing generation loss to optimize model parameters, we take a deeper step by retaining and leveraging the model's own learning signals, analogous to how human learners reflect on past mistakes to improve future performance. We first introduce the concept of Mistake Log to systematically track the model's learning behavior and recurring errors throughout fine-tuning. Treating the original transformer-based model as the Pilot, we correspondingly design a Copilot model to refine the Pilot's inference performance via logits rectification. We name the overall Pilot-Copilot framework the Transformer Copilot, which introduces (i) a novel Copilot model design, (ii) a joint training paradigm where the Copilot continuously learns from the evolving Mistake Log alongside the Pilot, and (iii) a fused inference paradigm where the Copilot rectifies the Pilot's logits for enhanced generation. We provide both theoretical and empirical analyses on our new learning framework. Experiments on 12 benchmarks spanning commonsense, arithmetic, and recommendation tasks demonstrate that Transformer Copilot consistently improves performance by up to 34.5%, while introducing marginal computational overhead to Pilot models and exhibiting strong scalability and transferability.
- Abstract(参考訳): 大規模言語モデルは典型的には、ドメイン固有のデータの教師付き微調整によって下流タスクに適応する。
モデルパラメータを最適化するために生成損失の最小化に重点を置いているが、人間の学習者が過去のミスを振り返って将来のパフォーマンスを改善する方法に類似した、モデル自身の学習信号を保持し、活用することで、より深い一歩を踏み出す。
まず、ミステイクログの概念を導入し、モデルの学習行動を体系的に追跡し、微調整を通してエラーを繰り返す。
元のトランスモデルをパイロットとして扱うことで,ロジット修正によるパイロットの推論性能を向上するコパイロットモデルを設計する。
われわれは、Pilot-Copilotフレームワーク全体をTransformer Copilotと命名した。
(i)新しいコパイロットモデルデザイン。
(二)コパイロットがパイロットとともに進化するミサケログから継続的に学習する合同訓練パラダイム
(iii)コパイロットがパイロットのロジットを改良世代に修正する融合推論パラダイム。
我々は、新しい学習フレームワークの理論的および経験的分析の両方を提供する。
コモンセンス、算術、レコメンデーションタスクにまたがる12のベンチマークの実験では、Transformer Copilotは一貫してパフォーマンスを34.5%改善し、Pilotモデルに限界計算オーバーヘッドを導入し、強力なスケーラビリティと転送性を示した。
関連論文リスト
- Flying Quadrotors in Tight Formations using Learning-based Model Predictive Control [30.715469693232492]
本研究では、第一原理モデリングとデータ駆動アプローチの利点を組み合わせたフレームワークを提案する。
このモデルを新しい学習ベースの予測モデル制御フレームワークに組み込むことで、性能が大幅に向上することを示す。
また,本フレームワークは,46秒の飛行データのみを用いて,例外的なサンプル効率を実現している。
論文 参考訳(メタデータ) (2024-10-13T05:03:16Z) - Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。
クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-09-25T06:48:25Z) - Copilot4D: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion [36.321494200830244]
Copilot4Dは、まずVQVAEでセンサ観測をトークン化し、次に離散拡散によって未来を予測する新しい世界モデリング手法である。
本研究は,ロボット工学におけるGPTのような非教師なし学習のパワーを,トークン化エージェント体験における離散拡散によって解き放つことを示す。
論文 参考訳(メタデータ) (2023-11-02T06:21:56Z) - Context-Aware Generative Models for Prediction of Aircraft Ground Tracks [0.004807514276707785]
軌道予測は航空交通管制官の意思決定を支援する上で重要な役割を果たしている。
従来のTP手法は決定論的で物理学に基づく手法であり、パラメータは世界中で収集された航空機の監視データを用いて校正される。
本研究では、確率論的機械学習を用いて、パイロット行動とATCO意図の未知の効果をモデル化する横型TPの生成法を提案する。
論文 参考訳(メタデータ) (2023-09-26T14:20:09Z) - SO(2)-Equivariant Downwash Models for Close Proximity Flight [6.297269227845377]
本稿では,この問題に潜伏する測地(対称性)を生かした下水力のモデリングのための,学習に基づく新しいアプローチを提案する。
実世界のフライトデータをわずか5分でトレーニングした場合、我々の幾何学的認識モデルは15分以上のデータでトレーニングされた最先端のベースラインモデルよりも優れていることを実証した。
論文 参考訳(メタデータ) (2023-05-30T12:27:47Z) - Inferring Traffic Models in Terminal Airspace from Flight Tracks and
Procedures [52.25258289718559]
本稿では,レーダ監視データから収集したプロシージャデータとフライトトラックから可変性を学習可能な確率モデルを提案する。
任意の航空機数を含む交通量を生成するために,ペアワイズモデルを用いる方法を示す。
論文 参考訳(メタデータ) (2023-03-17T13:58:06Z) - Data-Efficient Modeling for Precise Power Consumption Estimation of
Quadrotor Operations Using Ensemble Learning [3.722516004544342]
エレクトロニック・テイクオフ・アンド・ランディング (EVTOL) は、新興都市空力において主要な航空機であると考えられている。
本研究では,eVTOL航空機の消費電力モデル化のための枠組みを構築した。
そこで我々は,3種類の四重項の飛行記録を用いたデータ駆動モデルを構築するために,アンサンブル学習法,すなわち積み重ね法を用いた。
論文 参考訳(メタデータ) (2022-05-23T02:16:43Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。