論文の概要: Functionality learning through specification instructions
- arxiv url: http://arxiv.org/abs/2311.08481v1
- Date: Tue, 14 Nov 2023 19:15:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 18:43:18.642470
- Title: Functionality learning through specification instructions
- Title(参考訳): 仕様記述による機能学習
- Authors: Pedro Henrique Luz de Araujo and Benjamin Roth
- Abstract要約: テストスイートは、自然言語処理モデルのパフォーマンスを特定の機能で評価する。
これまでの研究は、スイートデータ上での微調整モデルによる機能学習を探求してきた。
本稿では,機能学習における微調整不要なアプローチについて分析する。
- 参考スコア(独自算出の注目度): 2.846550189998273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test suites assess natural language processing models' performance on
specific functionalities: cases of interest involving model robustness,
fairness, or particular linguistic capabilities. They enable fine-grained
evaluations of model aspects that would otherwise go unnoticed in standard
evaluation datasets, but they do not address the problem of how to fix the
failure cases. Previous work has explored functionality learning by fine-tuning
models on suite data. While this improves performance on seen functionalities,
it often does not generalize to unseen ones and can harm general performance.
This paper analyses a fine-tuning-free approach to functionality learning.
For each functionality in a suite, we generate a specification instruction that
encodes it. We combine the obtained specification instructions to create
specification-augmented prompts, which we feed to language models pre-trained
on natural instruction data to generate suite predictions. A core aspect of our
analysis is to measure the effect that including a set of specifications has on
a held-out set of unseen, qualitatively different specifications. Our
experiments across four tasks and models ranging from 80M to 175B parameters
show that smaller models struggle to follow specification instructions.
However, larger models (> 3B params.) can benefit from specifications and even
generalize desirable behaviors across functionalities.
- Abstract(参考訳): テストスイートは、自然言語処理モデルのパフォーマンスを特定の機能、すなわちモデルの堅牢性、公正性、あるいは特定の言語能力に関わるケースで評価する。
標準的な評価データセットでは認識できないようなモデル側面のきめ細かい評価を可能にするが、障害ケースの修正方法の問題には対処しない。
以前の研究では、スイートデータ上の微調整モデルによる機能学習を探求している。
これにより、見かける機能のパフォーマンスが向上するが、しばしば見えない機能に一般化せず、一般的なパフォーマンスに悪影響を及ぼす。
本稿では,機能学習に対する微調整フリーアプローチについて分析する。
スイートの各機能に対して、それをエンコードする仕様命令を生成します。
得られた仕様命令を組み合わせて仕様拡張プロンプトを生成し、自然言語命令データに基づいて事前訓練された言語モデルにフィードし、スイート予測を生成する。
私たちの分析の核となる側面は、仕様のセットを含むことが、見当たらない、定性的に異なる仕様の保持されたセットに与える影響を測定することです。
80Mから175Bのパラメータを含む4つのタスクとモデルに対する実験により、より小さなモデルでは仕様の指示に従うのに苦労していることが示された。
しかし、より大きなモデル (> 3B params.) は仕様の恩恵を受け、機能にまたがる望ましい振る舞いを一般化する。
関連論文リスト
- Evaluating the Instruction-following Abilities of Language Models using Knowledge Tasks [4.945902994386117]
本稿では,タスク性能と命令追従機能の両方を検証し易い命令追従ベンチマークの開発に焦点をあてる。
既存の知識ベンチマークを適応させ、(a)知識タスクを正しく答える条件付きで強化するか、(b)複数の知識回答タスクにおいて候補オプションの空間を使用する。
大規模な命令調整 LLM でさえ、ゼロショット設定で単純な命令に従わないことがわかった。
論文 参考訳(メタデータ) (2024-10-16T19:07:37Z) - Eliciting Instruction-tuned Code Language Models' Capabilities to Utilize Auxiliary Function for Code Generation [25.434546255499242]
本研究では,事前学習言語モデル上に構築された命令学習モデルのコード生成挙動について検討する。
我々は、クエリに追加したり、応答プレフィックスを提供したりすることで、モデルに補助機能を提供する方法をいくつか設計する。
論文 参考訳(メタデータ) (2024-09-20T22:28:20Z) - Third-Party Language Model Performance Prediction from Instruction [59.574169249307054]
言語モデルに基づく命令フォローシステムは、最近、多くのベンチマークタスクのパフォーマンスが向上している。
ユーザは、応答が正確かどうかを判断することなく、命令付きモデルを容易に促すことができる。
本稿では,タスク上での指示追従システムの評価から得られたメトリックを予測するために,別のモデルを訓練した第三者のパフォーマンス予測フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:53:47Z) - Specialist or Generalist? Instruction Tuning for Specific NLP Tasks [58.422495509760154]
包括的汎用的チューニングを取り入れることで,スペシャリストモデルの構築に寄与するかどうかを検討する。
実験では,異なる範囲で4つの目標タスクを評価した。
この効果は、タスク固有のトレーニングデータの量が限られている場合に特に顕著である。
論文 参考訳(メタデータ) (2023-10-23T19:46:48Z) - UniverSLU: Universal Spoken Language Understanding for Diverse Tasks with Natural Language Instructions [64.50935101415776]
我々は,様々な音声言語理解(SLU)タスクを共同で行う単一モデルを構築した。
我々は17のデータセットと9の言語にまたがる12の音声分類とシーケンス生成タスクタイプに対して,1つのマルチタスク学習モデル"UniverSLU"の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-04T17:10:23Z) - Did You Read the Instructions? Rethinking the Effectiveness of Task
Definitions in Instruction Learning [74.70157466822612]
教科学習におけるタスク定義の役割を体系的に研究する。
タスク出力を記述する内容を削除すると,モデルの性能が大幅に低下することがわかった。
本稿では,モデルのタスク命令の活用を支援するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2023-06-01T21:11:24Z) - Instruction Induction: From Few Examples to Natural Language Task
Descriptions [55.139554327372934]
実例に適合する自然言語命令を生成するように促すことで,言語モデルがいくつかの実演から基礎となるタスクを明示的に推論できることを示す。
InstructGPTは65.7%の人的パフォーマンスを達成するが、オリジナルのGPT-3モデルは9.8%にしか達しない。
論文 参考訳(メタデータ) (2022-05-22T09:22:37Z) - Multi Task Learning For Zero Shot Performance Prediction of Multilingual
Models [12.759281077118567]
多言語トランスフォーマーに基づく言語モデルは、言語間のゼロショット転送において驚くほど効果的であることが観察されている。
我々は,タスク上のゼロショット性能をマルチタスク学習問題としてモデル化することにより,タスク上のゼロショット性能を予測するための既存の手法を構築した。
論文 参考訳(メタデータ) (2022-05-12T14:47:03Z) - Quantifying Adaptability in Pre-trained Language Models with 500 Tasks [60.0364822929442]
本稿では,新しいベンチマークであるTaskBench500を用いて,LM適応性の特徴と限界に関する大規模な実証的研究を行う。
我々は適応性の3つの側面を評価し、適応手順が小さなデータセットを記憶する能力において劇的に異なることを発見した。
実験の結果、新しいタスクへの適応性、例えば新しい例への一般化は体系的に記述され、理解されることがわかった。
論文 参考訳(メタデータ) (2021-12-06T18:00:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。