論文の概要: Do Instruction-Tuned Models Always Perform Better Than Base Models? Evidence from Math and Domain-Shifted Benchmarks
- arxiv url: http://arxiv.org/abs/2601.13244v1
- Date: Mon, 19 Jan 2026 17:26:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.990075
- Title: Do Instruction-Tuned Models Always Perform Better Than Base Models? Evidence from Math and Domain-Shifted Benchmarks
- Title(参考訳): 教師付きモデルは常にベースモデルより優れているか? 数学とドメインシフトベンチマークによる証拠
- Authors: Prateek Munjal, Clement Christophe, Ronnie Rajan, Praveenkumar Kanithi,
- Abstract要約: 我々は,標準数学ベンチマーク,構造的摂動変異,ドメインシフトタスクに基づいて,ベースモデルと命令調整モデルを評価する。
この結果から,ベースモデルはドメイン固有のMedCalcベンチマークにおいて,命令調整のバリエーションを上回ることがわかった。
インストラクションチューニングされたモデルでは、摂動データセットが急激な低下を示し、頑健な推論よりも構造に敏感であることを示している。
- 参考スコア(独自算出の注目度): 0.6536121591910934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction finetuning is standard practice for improving LLM performance, yet it remains unclear whether it enhances reasoning or merely induces surface-level pattern matching. We investigate this by evaluating base and instruction-tuned models on standard math benchmarks, structurally perturbed variants, and domain-shifted tasks. Our analysis highlights two key (often overlooked) limitations of instruction tuning. First, the performance advantage is unstable and depends heavily on evaluation settings. In zero-shot CoT settings on GSM8K, base models consistently outperform instruction-tuned variants, with drops as high as 32.67\% (Llama3-70B). Instruction-tuned models only match or exceed this performance when provided with few-shot exemplars, suggesting a reliance on specific prompting patterns rather than intrinsic reasoning. Second, tuning gains are brittle under distribution shift. Our results show that base models surpass instruction-tuned variants on the domain-specific MedCalc benchmark. Additionally, instruction-tuned models show sharp declines on perturbed datasets, indicating sensitivity to prompt structure over robust reasoning.
- Abstract(参考訳): インストラクションファインタニングはLLMの性能向上のための標準的な手法であるが、推論を強化するか、単に表面レベルのパターンマッチングを誘導するだけなのかは定かではない。
本稿では、標準数学ベンチマーク、構造的摂動変異、ドメインシフトタスクに基づくベースモデルと命令調整モデルの評価により、これを検証する。
我々の分析では、命令チューニングの2つの重要な(しばしば見落とされがちな)制限を強調している。
まず、パフォーマンスのアドバンテージは不安定であり、評価設定に大きく依存する。
GSM8KのゼロショットCoT設定では、ベースモデルは命令調整された変種を一貫して上回り、最大32.67\%(Llama3-70B)まで低下した。
インストラクションチューニングされたモデルは、数発の例を挙げると、このパフォーマンスにマッチするか、超越しているだけであり、本質的な推論ではなく、特定のプロンプトパターンに依存していることを示唆している。
第二に、調整利得は分配シフト時に不安定である。
この結果から,ベースモデルはドメイン固有のMedCalcベンチマークにおいて,命令調整のバリエーションを上回ることがわかった。
さらに、命令調整されたモデルは摂動データセットに急激な低下を示し、ロバストな推論よりも構造に敏感であることを示す。
関連論文リスト
- On the Effect of Instruction Tuning Loss on Generalization [22.288479270814484]
標準命令チューニング損失は、しばしばサブ最適性能と、インプット・インプット・インプット・インプット・インプット・インプット・インプットのロバスト性に制限されることを示す。
プロンプトトークンに対する低から高への重みと応答トークンに対する中から高への重みが組み合わさって、設定全体にわたって最高のパフォーマンスモデルが得られることがわかった。
論文 参考訳(メタデータ) (2025-07-10T14:46:33Z) - Shadow-FT: Tuning Instruct Model via Training on Paired Base Model [67.20706292627106]
大規模言語モデル(LLM)は、様々なタスクのさらなる微調整の恩恵を一貫して受けている。
本稿では,対応するベースモデルを活用してインストラクタモデルをチューニングするための新しいシャドウ-FTフレームワークを提案する。
提案するShadow-FTは,追加パラメータを導入せず,実装が容易で,性能が大幅に向上する。
論文 参考訳(メタデータ) (2025-05-19T05:16:21Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。
この問題に対処するための単純な分散結合フレームワークを導入する。
我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文 参考訳(メタデータ) (2024-05-22T08:18:19Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - On the Limits of Evaluating Embodied Agent Model Generalization Using
Validation Sets [101.28658250723804]
本稿では,より広い視野を効果的に活用し,次のステップでナビゲーションや操作を行うかを選択するモジュールによるトランスフォーマーモデルの拡張実験を行う。
提案したモジュールは改良され,実際に,一般的なベンチマークデータセットであるALFREDの未確認検証セット上での最先端のパフォーマンスが向上した。
この結果は、機械学習タスクではより広い現象かもしれないが、主にテストスプリットの評価を制限するベンチマークでのみ顕著である、と我々は考えているので強調する。
論文 参考訳(メタデータ) (2022-05-18T23:52:21Z) - Interpretable Learning-to-Rank with Generalized Additive Models [78.42800966500374]
ラーニング・ツー・ランクのモデルの解釈可能性は、非常に重要でありながら、比較的過小評価されている研究分野である。
解釈可能なランキングモデルの最近の進歩は、主に既存のブラックボックスランキングモデルに対するポストホックな説明の生成に焦点を当てている。
一般化加法モデル(GAM)をランキングタスクに導入することにより,本質的に解釈可能な学習 to ランクの基盤を築いた。
論文 参考訳(メタデータ) (2020-05-06T01:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。