論文の概要: Functionality learning through specification instructions
- arxiv url: http://arxiv.org/abs/2311.08481v1
- Date: Tue, 14 Nov 2023 19:15:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 18:43:18.642470
- Title: Functionality learning through specification instructions
- Title(参考訳): 仕様記述による機能学習
- Authors: Pedro Henrique Luz de Araujo and Benjamin Roth
- Abstract要約: テストスイートは、自然言語処理モデルのパフォーマンスを特定の機能で評価する。
これまでの研究は、スイートデータ上での微調整モデルによる機能学習を探求してきた。
本稿では,機能学習における微調整不要なアプローチについて分析する。
- 参考スコア(独自算出の注目度): 2.846550189998273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test suites assess natural language processing models' performance on
specific functionalities: cases of interest involving model robustness,
fairness, or particular linguistic capabilities. They enable fine-grained
evaluations of model aspects that would otherwise go unnoticed in standard
evaluation datasets, but they do not address the problem of how to fix the
failure cases. Previous work has explored functionality learning by fine-tuning
models on suite data. While this improves performance on seen functionalities,
it often does not generalize to unseen ones and can harm general performance.
This paper analyses a fine-tuning-free approach to functionality learning.
For each functionality in a suite, we generate a specification instruction that
encodes it. We combine the obtained specification instructions to create
specification-augmented prompts, which we feed to language models pre-trained
on natural instruction data to generate suite predictions. A core aspect of our
analysis is to measure the effect that including a set of specifications has on
a held-out set of unseen, qualitatively different specifications. Our
experiments across four tasks and models ranging from 80M to 175B parameters
show that smaller models struggle to follow specification instructions.
However, larger models (> 3B params.) can benefit from specifications and even
generalize desirable behaviors across functionalities.
- Abstract(参考訳): テストスイートは、自然言語処理モデルのパフォーマンスを特定の機能、すなわちモデルの堅牢性、公正性、あるいは特定の言語能力に関わるケースで評価する。
標準的な評価データセットでは認識できないようなモデル側面のきめ細かい評価を可能にするが、障害ケースの修正方法の問題には対処しない。
以前の研究では、スイートデータ上の微調整モデルによる機能学習を探求している。
これにより、見かける機能のパフォーマンスが向上するが、しばしば見えない機能に一般化せず、一般的なパフォーマンスに悪影響を及ぼす。
本稿では,機能学習に対する微調整フリーアプローチについて分析する。
スイートの各機能に対して、それをエンコードする仕様命令を生成します。
得られた仕様命令を組み合わせて仕様拡張プロンプトを生成し、自然言語命令データに基づいて事前訓練された言語モデルにフィードし、スイート予測を生成する。
私たちの分析の核となる側面は、仕様のセットを含むことが、見当たらない、定性的に異なる仕様の保持されたセットに与える影響を測定することです。
80Mから175Bのパラメータを含む4つのタスクとモデルに対する実験により、より小さなモデルでは仕様の指示に従うのに苦労していることが示された。
しかし、より大きなモデル (> 3B params.) は仕様の恩恵を受け、機能にまたがる望ましい振る舞いを一般化する。
関連論文リスト
- Specialist or Generalist? Instruction Tuning for Specific NLP Tasks [58.422495509760154]
包括的汎用的チューニングを取り入れることで,スペシャリストモデルの構築に寄与するかどうかを検討する。
実験では,異なる範囲で4つの目標タスクを評価した。
この効果は、タスク固有のトレーニングデータの量が限られている場合に特に顕著である。
論文 参考訳(メタデータ) (2023-10-23T19:46:48Z) - How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文 参考訳(メタデータ) (2023-06-07T19:59:23Z) - Assessing the Generalizability of a Performance Predictive Model [0.6070952062639761]
本稿では,アルゴリズム性能の予測モデルの一般化可能性を評価するワークフローを提案する。
その結果,ランドスケープの特徴空間における一般化可能性パターンが性能空間に反映されることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T12:50:44Z) - Do Models Really Learn to Follow Instructions? An Empirical Study of
Instruction Tuning [37.01833561948585]
命令チューニング(IT)に関する最近の研究は、目に見えないタスクに対してゼロショットの一般化性で大きな成果を上げている。
我々は、モデルトレーニングと変更した命令と元の命令とを比較して、モデルがどのようにITのインストラクションを利用するかを分析する。
論文 参考訳(メタデータ) (2023-05-19T02:00:47Z) - Assessing Out-of-Domain Language Model Performance from Few Examples [38.245449474937914]
ドメイン外性能(OOD)を数ショットで予測するタスクに対処する。
数ショットの例でモデル精度をみると、このタスクのパフォーマンスをベンチマークする。
帰属に基づく要因がOODの相対モデルの性能のランク付けに有効であることを示す。
論文 参考訳(メタデータ) (2022-10-13T04:45:26Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z) - Predicting is not Understanding: Recognizing and Addressing
Underspecification in Machine Learning [47.651130958272155]
下位仕様とは、ドメイン内の精度で区別できない複数のモデルの存在を指す。
我々は、不特定概念を形式化し、それを特定し、部分的に対処する方法を提案する。
論文 参考訳(メタデータ) (2022-07-06T11:20:40Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。