論文の概要: Functionality learning through specification instructions
- arxiv url: http://arxiv.org/abs/2311.08481v2
- Date: Wed, 09 Oct 2024 11:54:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:28:40.741740
- Title: Functionality learning through specification instructions
- Title(参考訳): 仕様記述による機能学習
- Authors: Pedro Henrique Luz de Araujo, Benjamin Roth,
- Abstract要約: テストスイートは、自然言語処理モデルのパフォーマンスを特定の機能で評価する。
本稿では,細粒度タスク固有の振る舞いを記述したテキスト記述について述べる。
我々は、仕様記述と仕様拡張プロンプトを組み合わせ、自然の命令データに基づいて事前訓練された言語モデルにフィードする。
- 参考スコア(独自算出の注目度): 2.4095382017500464
- License:
- Abstract: Test suites assess natural language processing models' performance on specific functionalities: cases of interest involving model robustness, fairness, or particular linguistic capabilities. This paper introduces specification instructions: text descriptions specifying fine-grained task-specific behaviors. For each functionality in a suite, we generate an instruction that describes it. We combine the specification instructions to create specification-augmented prompts, which we feed to language models pre-trained on natural instruction data. We conduct experiments to measure how optimizing for some functionalities may negatively impact functionalities that are not covered by the specification set. Our analyses across four tasks and models of diverse sizes and families show that smaller models struggle to follow specification instructions. However, larger models (>~3B params.) can benefit from specifications and -- surprisingly -- even generalize certain desirable behaviors across functionalities.
- Abstract(参考訳): テストスイートは、自然言語処理モデルのパフォーマンスを特定の機能、すなわちモデルの堅牢性、公正性、あるいは特定の言語能力に関わるケースで評価する。
本稿では,細粒度タスク固有の振る舞いを記述したテキスト記述について述べる。
スイートの各機能に対して、それを記述した命令を生成します。
我々は、仕様記述と仕様拡張プロンプトを組み合わせ、自然の命令データに基づいて事前訓練された言語モデルにフィードする。
我々は、いくつかの機能に対する最適化が、仕様セットでカバーされていない機能に悪影響を及ぼす可能性を測る実験を行う。
多様なサイズと家族の4つのタスクとモデルに対する分析は、より小さなモデルでは仕様指示に従うのに苦労していることを示している。
しかし、より大きなモデル (>~3B params.) は仕様の恩恵を受けることができ、驚くほど -- 機能にまたがる特定の望ましい振る舞いを一般化する。
関連論文リスト
- Evaluating the Instruction-following Abilities of Language Models using Knowledge Tasks [4.945902994386117]
本稿では,タスク性能と命令追従機能の両方を検証し易い命令追従ベンチマークの開発に焦点をあてる。
既存の知識ベンチマークを適応させ、(a)知識タスクを正しく答える条件付きで強化するか、(b)複数の知識回答タスクにおいて候補オプションの空間を使用する。
大規模な命令調整 LLM でさえ、ゼロショット設定で単純な命令に従わないことがわかった。
論文 参考訳(メタデータ) (2024-10-16T19:07:37Z) - Eliciting Instruction-tuned Code Language Models' Capabilities to Utilize Auxiliary Function for Code Generation [25.434546255499242]
本研究では,事前学習言語モデル上に構築された命令学習モデルのコード生成挙動について検討する。
我々は、クエリに追加したり、応答プレフィックスを提供したりすることで、モデルに補助機能を提供する方法をいくつか設計する。
論文 参考訳(メタデータ) (2024-09-20T22:28:20Z) - Third-Party Language Model Performance Prediction from Instruction [59.574169249307054]
言語モデルに基づく命令フォローシステムは、最近、多くのベンチマークタスクのパフォーマンスが向上している。
ユーザは、応答が正確かどうかを判断することなく、命令付きモデルを容易に促すことができる。
本稿では,タスク上での指示追従システムの評価から得られたメトリックを予測するために,別のモデルを訓練した第三者のパフォーマンス予測フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:53:47Z) - Specialist or Generalist? Instruction Tuning for Specific NLP Tasks [58.422495509760154]
包括的汎用的チューニングを取り入れることで,スペシャリストモデルの構築に寄与するかどうかを検討する。
実験では,異なる範囲で4つの目標タスクを評価した。
この効果は、タスク固有のトレーニングデータの量が限られている場合に特に顕著である。
論文 参考訳(メタデータ) (2023-10-23T19:46:48Z) - UniverSLU: Universal Spoken Language Understanding for Diverse Tasks with Natural Language Instructions [64.50935101415776]
我々は,様々な音声言語理解(SLU)タスクを共同で行う単一モデルを構築した。
我々は17のデータセットと9の言語にまたがる12の音声分類とシーケンス生成タスクタイプに対して,1つのマルチタスク学習モデル"UniverSLU"の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-04T17:10:23Z) - Did You Read the Instructions? Rethinking the Effectiveness of Task
Definitions in Instruction Learning [74.70157466822612]
教科学習におけるタスク定義の役割を体系的に研究する。
タスク出力を記述する内容を削除すると,モデルの性能が大幅に低下することがわかった。
本稿では,モデルのタスク命令の活用を支援するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2023-06-01T21:11:24Z) - Instruction Induction: From Few Examples to Natural Language Task
Descriptions [55.139554327372934]
実例に適合する自然言語命令を生成するように促すことで,言語モデルがいくつかの実演から基礎となるタスクを明示的に推論できることを示す。
InstructGPTは65.7%の人的パフォーマンスを達成するが、オリジナルのGPT-3モデルは9.8%にしか達しない。
論文 参考訳(メタデータ) (2022-05-22T09:22:37Z) - Multi Task Learning For Zero Shot Performance Prediction of Multilingual
Models [12.759281077118567]
多言語トランスフォーマーに基づく言語モデルは、言語間のゼロショット転送において驚くほど効果的であることが観察されている。
我々は,タスク上のゼロショット性能をマルチタスク学習問題としてモデル化することにより,タスク上のゼロショット性能を予測するための既存の手法を構築した。
論文 参考訳(メタデータ) (2022-05-12T14:47:03Z) - Quantifying Adaptability in Pre-trained Language Models with 500 Tasks [60.0364822929442]
本稿では,新しいベンチマークであるTaskBench500を用いて,LM適応性の特徴と限界に関する大規模な実証的研究を行う。
我々は適応性の3つの側面を評価し、適応手順が小さなデータセットを記憶する能力において劇的に異なることを発見した。
実験の結果、新しいタスクへの適応性、例えば新しい例への一般化は体系的に記述され、理解されることがわかった。
論文 参考訳(メタデータ) (2021-12-06T18:00:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。