論文の概要: Reinforcement Learning Fine-tuning of Language Models is Biased Towards
More Extractable Features
- arxiv url: http://arxiv.org/abs/2311.04046v1
- Date: Tue, 7 Nov 2023 15:00:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 15:11:08.497285
- Title: Reinforcement Learning Fine-tuning of Language Models is Biased Towards
More Extractable Features
- Title(参考訳): 強化学習による言語モデルの微調整は、より抽出可能な機能に偏っている
- Authors: Diogo Cruz, Edoardo Pona, Alex Holness-Tofts, Elias Schmied, V\'ictor
Abia Alonso, Charlie Griffin, Bogdan-Ionut Cirstea
- Abstract要約: 我々は,大規模言語モデルの教師付き微調整における帰納的バイアスを規定する原則が,強化学習を用いた微調整プロセスにおいても適用できるかどうかを考察する。
これらの仮説の強い証拠となる統計的に有意な相関関係を見いだす。
- 参考スコア(独自算出の注目度): 0.5937476291232802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many capable large language models (LLMs) are developed via self-supervised
pre-training followed by a reinforcement-learning fine-tuning phase, often
based on human or AI feedback. During this stage, models may be guided by their
inductive biases to rely on simpler features which may be easier to extract, at
a cost to robustness and generalisation. We investigate whether principles
governing inductive biases in the supervised fine-tuning of LLMs also apply
when the fine-tuning process uses reinforcement learning. Following Lovering et
al (2021), we test two hypotheses: that features more $\textit{extractable}$
after pre-training are more likely to be utilised by the final policy, and that
the evidence for/against a feature predicts whether it will be utilised.
Through controlled experiments on synthetic and natural language tasks, we find
statistically significant correlations which constitute strong evidence for
these hypotheses.
- Abstract(参考訳): 多くの有能な大規模言語モデル(LLM)は、自己教師付き事前訓練を経て開発され、強化学習の微調整フェーズが続く。
この段階では、モデルは誘導バイアスによって導かれ、より単純な特徴に頼り、より容易に抽出でき、堅牢性と一般化にコストがかかる。
我々は,LLMの微調整における帰納的バイアスを規定する原則が,強化学習を用いた微調整プロセスにおいても適用できるかどうかを考察する。
Lovering et al (2021) に続いて、我々は2つの仮説を検証した: 事前学習後の$\textit{extractable}$が最終方針によって活用される可能性が高く、また、機能に対する証拠が活用されるかどうかを予測する。
合成および自然言語タスクの制御実験を通じて,これらの仮説の強い証拠となる統計的に有意な相関を見出した。
関連論文リスト
- Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。
本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。
この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文 参考訳(メタデータ) (2024-10-17T17:16:00Z) - On the Inductive Bias of Stacking Towards Improving Reasoning [50.225873619537765]
言語モデルのトレーニングを最大40%高速化できるMIDASと呼ばれる段階的スタック方式を提案する。
MIDASはトレーニング効率だけでなく、ダウンストリームタスクを改善するための誘導バイアスも備えている。
我々は、この帰納バイアスの根底にある理由を、ループモデルへの積み重ねの接続を探索することによって推測する。
論文 参考訳(メタデータ) (2024-09-27T17:58:21Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Measuring Inductive Biases of In-Context Learning with Underspecified
Demonstrations [35.16904555065152]
In-context Learning(ICL)は、大規模言語モデルを新しいタスクに適用するための重要なパラダイムである。
特徴バイアスの観点からICLの誘導バイアスについて検討した。
論文 参考訳(メタデータ) (2023-05-22T17:56:31Z) - Explaining Language Models' Predictions with High-Impact Concepts [11.47612457613113]
概念ベースの解釈可能性手法をNLPに拡張するための完全なフレームワークを提案する。
出力予測が大幅に変化する特徴を最適化する。
本手法は, ベースラインと比較して, 予測的影響, ユーザビリティ, 忠実度に関する優れた結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T14:48:27Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Learning with Latent Structures in Natural Language Processing: A Survey [0.0]
遅延離散構造を用いた学習への近年の関心は、エンドタスク性能の向上と解釈可能性の向上に優れた帰納バイアスを取り入れている。
本研究は, シュロゲート勾配, 連続緩和, サンプリングによる限界確率という, モデル学習の3つの主要なファミリーを調査する。
本研究は,これらの手法の応用のレビューと,それらが引き起こす学習された潜伏構造の検査で締めくくった。
論文 参考訳(メタデータ) (2022-01-03T06:16:17Z) - How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial
Robustness? [121.57551065856164]
本稿では,情報理論の観点から,新しい対角的微調整法としてロバスト・インフォーマティブ・ファインチューニング(RIFT)を提案する。
RIFTは、微調整プロセス全体を通して、事前訓練されたモデルから学んだ特徴を維持するために客観的モデルを奨励する。
実験の結果, RIFTは2つのNLPタスクにおいて, 最先端のタスクを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-22T05:04:41Z) - Pragmatic competence of pre-trained language models through the lens of
discourse connectives [4.917317902787791]
事前学習型言語モデル(LM)がNLPを支配し続けているため、これらのモデルにおける言語機能の深さを理解することがますます重要である。
談話接続性を予測するために実用的手がかりを使用するモデルの能力をテストすることに注力する。
自然に発生するデータのコンテキストにおいて、モデルが結合性を合理的に予測するが、高レベルの実用的手がかりを分離するためにコンテキストを制御する場合、モデル感度ははるかに低い。
論文 参考訳(メタデータ) (2021-09-27T11:04:41Z) - Active Learning for Sequence Tagging with Deep Pre-trained Models and
Bayesian Uncertainty Estimates [52.164757178369804]
自然言語処理のためのトランスファーラーニングとアクティブラーニングの最近の進歩は、必要なアノテーション予算を大幅に削減する可能性を開く。
我々は,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションの実験的研究を,アクティブ学習フレームワークで実施する。
また, 能動学習中にインスタンスを取得するためには, 完全サイズのトランスフォーマーを蒸留版に置き換えることにより, 計算性能が向上することを示した。
論文 参考訳(メタデータ) (2021-01-20T13:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。