論文の概要: Timber: Training-free Instruct Model Refining with Base via Effective Rank
- arxiv url: http://arxiv.org/abs/2509.23595v1
- Date: Sun, 28 Sep 2025 02:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.313535
- Title: Timber: Training-free Instruct Model Refining with Base via Effective Rank
- Title(参考訳): Timber: 効果的なランクによるベースによるトレーニング不要なインストラクションモデルリフィニング
- Authors: Taiqiang Wu, Runming Yang, Tao Liu, Jiahao Wang, Zenan Xu, Ngai Wong,
- Abstract要約: ポストトレーニングは、トレーニング済みのベースモデルを対応するインストラクトモデルに引き込む。
この超現実性はまた、重要なトレードオフを被り、探査を制限するコストで搾取能力を改善している。
我々は,Timberを提案する。Timberは,インストラクタモデルの探索能力を向上し,その活用性を保っている。
- 参考スコア(独自算出の注目度): 26.846426613668466
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Post-training, which elicits a pretrained Base model into the corresponding Instruct model, is widely considered to be superficial. In this work, we first reinforce this hypothesis by providing novel quantitative evidence from the weight level that the effective rank (eRank) remains negligibly changed. However, this superficiality also suffers a critical trade-off, improving the exploitation capabilities at the cost of limiting its exploration. To tackle this issue, we propose Timber, a simple yet effective training-free method that enhances the exploration capability of the Instruct model while preserving its exploitation. The key insight is to partially revert Instruct towards the paired Base model by subtle yet targeted refinement of the weight deltas. Extensive experiments on Llama and Qwen series demonstrate that Timber consistently improves vanilla Instruct models, particularly on Pass@k performance. Our findings offer new insights into the post-training stage at the weight level and practical strategies to refine the Instruct model without training.
- Abstract(参考訳): 事前訓練されたベースモデルを対応するインストラクトモデルに取り入れたポストトレーニングは、表面的であると広く考えられている。
本研究では、実効ランク(eRank)が無視できないほど変化し続けるという新しい量的証拠をウェイトレベルから与えて、この仮説を補強する。
しかし、この超現実性もまた重要なトレードオフを被り、探検を制限するコストで搾取能力を改善している。
この問題に対処するためにTimberを提案する。Timberは、インストラクタモデルの探索能力を向上し、その利用を保ちながら、簡易かつ効果的なトレーニングフリーな手法である。
重要な洞察は、インストラクションを微妙に目標とする重みデルタの改良により、ペアのベースモデルに部分的に戻すことである。
Llama と Qwen シリーズの大規模な実験では、Timber はバニラ命令モデル、特に Pass@k のパフォーマンスを一貫して改善している。
本研究は,重量レベルでのトレーニング後の段階に対する新たな知見と,トレーニングなしでインストラクションモデルを洗練するための実践的戦略を提供する。
関連論文リスト
- Dynamic Rank Adjustment for Accurate and Efficient Neural Network Training [9.136268810230858]
我々は,低ランクトレーニングエポック内のフルランクトレーニングエポックを戦略的にインターリーブすることで,モデルの重みのランクを効果的に回復できると主張している。
実験により,提案手法はSVDベースの低ランクトレーニングとほぼ同等の計算コストを実現することが示された。
論文 参考訳(メタデータ) (2025-08-12T04:30:52Z) - How to Probe: Simple Yet Effective Techniques for Improving Post-hoc Explanations [69.72654127617058]
ポストホック重要属性法は、ディープニューラルネットワーク(DNN)を"説明"するための一般的なツールである
この研究において、我々はこの概念に挑戦する経験的証拠を提示する。
トレーニング済みモデルの分類レイヤのトレーニング詳細が重要な役割を果たすことを示す。
論文 参考訳(メタデータ) (2025-03-01T22:25:11Z) - On the Inductive Bias of Stacking Towards Improving Reasoning [50.225873619537765]
言語モデルのトレーニングを最大40%高速化できるMIDASと呼ばれる段階的スタック方式を提案する。
MIDASはトレーニング効率だけでなく、ダウンストリームタスクを改善するための誘導バイアスも備えている。
我々は、この帰納バイアスの根底にある理由を、ループモデルへの積み重ねの接続を探索することによって推測する。
論文 参考訳(メタデータ) (2024-09-27T17:58:21Z) - An Empirical Analysis of Forgetting in Pre-trained Models with Incremental Low-Rank Updates [11.90029443742706]
本研究は,ローランド適応(LoRA)のランクが,事前学習の基礎課題の忘れ方,可塑性およびその後の課題の忘れ方に及ぼす影響について検討する。
また、この方法で微調整された視覚トランスフォーマーは、残余のネットワークでは観測できないような、ある種の文脈的「忘れ」を示す。
論文 参考訳(メタデータ) (2024-05-28T11:29:25Z) - On the Surprising Efficacy of Distillation as an Alternative to Pre-Training Small Models [7.062887337934677]
我々は、小モデルがその利点を享受するために事前学習のコストを吸収する必要がないことを提案する。
事前訓練されたモデルからタスクを蒸留すると、そのタスクで事前訓練されたり微調整されたりした場合、小さなモデルで達成される性能を達成または超えることが観察された。
論文 参考訳(メタデータ) (2024-04-04T07:38:11Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。
後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Bag of Tricks for Adversarial Training [50.53525358778331]
アドリアリトレーニングは、モデルの堅牢性を促進するための最も効果的な戦略の1つである。
最近のベンチマークでは、提案されたATの改良のほとんどは、単にトレーニング手順を早期に停止するよりも効果が低いことが示されている。
論文 参考訳(メタデータ) (2020-10-01T15:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。