論文の概要: APT: Improving Specialist LLM Performance with Weakness Case Acquisition and Iterative Preference Training
- arxiv url: http://arxiv.org/abs/2506.03483v1
- Date: Wed, 04 Jun 2025 01:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.103279
- Title: APT: Improving Specialist LLM Performance with Weakness Case Acquisition and Iterative Preference Training
- Title(参考訳): APT:弱み事例獲得と反復的選好訓練による特殊LSM性能の向上
- Authors: Jun Rao, Zepeng Lin, Xuebo Liu, Xiaopeng Ke, Lian Lian, Dong Jin, Shengjun Cheng, Jun Yu, Min Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、ターゲットとするタスクに対処するためにドメイン固有の微調整を必要とすることが多い。
ドメイン固有の拡張と一般的なモデルユーティリティのバランスを維持することは重要な課題です。
本稿では,自己生成型非推奨弱みデータを用いてドメイン固有性能を向上させるために,APTという新しい手法を提案する。
- 参考スコア(独自算出の注目度): 21.570482838147225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) often require domain-specific fine-tuning to address targeted tasks, which risks degrading their general capabilities. Maintaining a balance between domain-specific enhancements and general model utility is a key challenge. This paper proposes a novel approach named APT (Weakness Case Acquisition and Iterative Preference Training) to enhance domain-specific performance with self-generated dis-preferred weakness data (bad cases and similar cases). APT uniquely focuses on training the model using only those samples where errors occur, alongside a small, similar set of samples retrieved for this purpose. This targeted training minimizes interference with the model's existing knowledge base, effectively retaining generic capabilities. Experimental results on the LLama-2 and Mistral-V0.3 models across various benchmarks demonstrate that APT ensures no reduction in generic capacity and achieves superior performance on downstream tasks compared to various existing methods. This validates our method as an effective strategy for enhancing domain-specific capabilities without sacrificing the model's broader applicability.
- Abstract(参考訳): 大きな言語モデル(LLM)は、ターゲットタスクに対処するためにドメイン固有の微調整を必要とすることが多い。
ドメイン固有の拡張と一般的なモデルユーティリティのバランスを維持することは重要な課題です。
本稿では, APT (Weakness Case Acquisition and Iterative Preference Training) という新たな手法を提案する。
APTは、この目的のために検索された小さな類似したサンプルセットとともに、エラーが発生したサンプルのみを使用してモデルをトレーニングすることに特化している。
このターゲットトレーニングは、モデルの既存の知識ベースとの干渉を最小限に抑え、ジェネリックな能力を効果的に維持する。
LLama-2およびMistral-V0.3モデルに対する実験結果から、APTは汎用能力の低下を保証せず、既存の様々な手法と比較して下流タスクにおいて優れた性能を発揮することが示された。
これにより、モデルの広範な適用性を犠牲にすることなく、ドメイン固有能力を向上するための効果的な戦略として、我々の手法を検証する。
関連論文リスト
- MAA: Meticulous Adversarial Attack against Vision-Language Pre-trained Models [30.04163729936878]
Meticulous Adrial Attack (MAA) は、個々のサンプルのモデルに依存しない特性と脆弱性を完全に活用する。
MAAは、新しいリサイズ・スライディング作物(RScrop)技術を開発することにより、敵画像のきめ細かい最適化を強調している。
論文 参考訳(メタデータ) (2025-02-12T02:53:27Z) - BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。
我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。
理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-20T15:58:43Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Feature Protection For Out-of-distribution Generalization [24.072876186625855]
事前訓練された特徴の保護は、より厳密に調整されたモデルが一般化に結びつくことを示す。
事前訓練された特徴の保護は,OODの一般化に対してより堅牢な微調整モデルをもたらすことを示す。
論文 参考訳(メタデータ) (2024-05-25T03:00:06Z) - Mitigate Domain Shift by Primary-Auxiliary Objectives Association for
Generalizing Person ReID [39.98444065846305]
ReIDモデルは、インスタンス分類の目的に関するトレーニングを通じてのみドメイン不変表現を学ぶのに苦労します。
本稿では,弱いラベル付き歩行者唾液度検出のための補助学習目標を用いて,プライマリReIDインスタンス分類目標のモデル学習を指導する手法を提案する。
我々のモデルは、最近のテストタイムダイアグラムで拡張してPAOA+を形成し、補助的な目的に対してオンザフライ最適化を行うことができる。
論文 参考訳(メタデータ) (2023-10-24T15:15:57Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。