論文の概要: Evaluating Generalization and Representation Stability in Small LMs via Prompting, Fine-Tuning and Out-of-Distribution Prompts
- arxiv url: http://arxiv.org/abs/2506.17289v2
- Date: Wed, 25 Jun 2025 04:27:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 12:28:29.352162
- Title: Evaluating Generalization and Representation Stability in Small LMs via Prompting, Fine-Tuning and Out-of-Distribution Prompts
- Title(参考訳): プロンプト, 微調整, アウト・オブ・ディストリビューション・プロンプトによる小型LMの一般化と表現安定性の評価
- Authors: Rahul Raja, Arpita Vats,
- Abstract要約: 本稿では,小型言語モデルの2つの適応パラダイムに基づく一般化能力について検討する。
本研究は,小モデルが適応戦略の異なる知識を内在化し,一般化する過程において,重要な違いを呈するものである。
- 参考スコア(独自算出の注目度): 2.377892000761193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the generalization capabilities of small language models under two popular adaptation paradigms: few-shot prompting and supervised fine-tuning. While prompting is often favored for its parameter efficiency and flexibility, it remains unclear how robust this approach is in low-resource settings and under distributional shifts. This paper presents a comparative study of prompting and fine-tuning across task formats, prompt styles, and model scales, with a focus on their behavior in both in-distribution and out-of-distribution (OOD) settings. Beyond accuracy, we analyze the internal representations learned by each approach to assess the stability and abstraction of task-specific features. Our findings highlight critical differences in how small models internalize and generalize knowledge under different adaptation strategies. This work offers practical guidance for model selection in low-data regimes and contributes empirical insight into the ongoing debate over prompting versus fine-tuning. Code for the experiments is available at the following
- Abstract(参考訳): 本稿では,小型言語モデルの2つの適応パラダイムに基づく一般化能力について検討する。
プロンプトはパラメータの効率と柔軟性によく好まれるが、低リソース設定や分散シフト下でのこのアプローチがどれほど堅牢かは、いまだ不明である。
本稿では,タスク形式,プロンプトスタイル,モデルスケールに対する微調整の促進に関する比較研究を行い,その振る舞いを分布内およびアウト・オブ・ディストリビューション(OOD)設定の両方に焦点をあてる。
精度を超えて、各手法が学習した内部表現を分析し、タスク固有の特徴の安定性と抽象化を評価する。
本研究は,小モデルが適応戦略の異なる知識を内在化し,一般化する過程において,重要な違いを呈するものである。
この研究は、低データ体制におけるモデル選択の実践的なガイダンスを提供し、プロンプトと微調整に関する議論に関する実証的な洞察を提供する。
実験のコードは以下の通りである。
関連論文リスト
- Less is More: Local Intrinsic Dimensions of Contextual Language Models [13.561226514150695]
本研究では,テクスチュアな埋め込みの幾何学的特性に基づく新しい視点を導入し,トレーニングと微調整の効果について検討する。
局所的な次元はモデルのトレーニング力学と一般化能力に関する洞察を与える。
実験では, 平均局所次元の減少が伴う傾向にあり, その後のパフォーマンス向上が予測される傾向がある。
論文 参考訳(メタデータ) (2025-06-01T14:30:46Z) - Explaining the Unexplained: Revealing Hidden Correlations for Better Interpretability [1.8274323268621635]
Real Explainer(RealExp)は、Shapley値を個々の特徴と特徴相関の重要度に分解する、解釈可能性の手法である。
RealExpは、個々の特徴とそれらの相互作用を正確に定量化することで、解釈可能性を高める。
論文 参考訳(メタデータ) (2024-12-02T10:50:50Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。