論文の概要: \llinstruct: An Instruction-tuned model for English Language Proficiency Assessments
- arxiv url: http://arxiv.org/abs/2410.09314v1
- Date: Sat, 12 Oct 2024 00:47:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 15:13:33.223233
- Title: \llinstruct: An Instruction-tuned model for English Language Proficiency Assessments
- Title(参考訳): \llinstruct: 英語の習熟度評価のための指導訓練モデル
- Authors: Debanjan Ghosh, Sophia Chan,
- Abstract要約: 英語アセスメント(ELPA)のためのコンテンツを生成する8B命令調整モデルを提案する。
私たちの研究は、ELPAドメインで70K命令と説明のデータセットを作成することにあります。
これらのSFTモデルとSOTAモデルを比較するために、見知らぬ命令に対して人的評価を行う。
- 参考スコア(独自算出の注目度): 6.307485015636125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present \llinstruct: An 8B instruction-tuned model that is designed to generate content for English Language Proficiency Assessments (ELPA) and related applications. Our work involves creating a new dataset of 70K instructions and explanations in the ELPA domain and using these to fine-tune Llama-3 8B models (SFT) of different sizes (e.g., SFT-17K, SFT-50K and SFT-70K). Human evaluations are conducted over unseen instructions to compare these SFT models against SOTA models (e.g., Dolly-2, Mistral, Llama-3 base version, and GPT-3.5). The findings show although all three SFT models perform comparably, the model trained on largest instruction dataset -- SFT-70K - leads to the most valid outputs ready for assessments. However, although the SFT models perform better than larger model, e.g., GPT 3.5 on the aspect of explanations of outputs, many outputs still need human interventions to make them actual ready for real world assessments.
- Abstract(参考訳): 本稿では,英語習熟度評価(ELPA)とその関連アプリケーションのためのコンテンツを生成する8B命令調整モデルを提案する。
我々の研究は、ELPAドメインで70K命令と説明の新しいデータセットを作成し、これらを使用して異なるサイズのLlama-3 8Bモデル(例えば、SFT-17K、SFT-50K、SFT-70K)を微調整する。
これらのSFTモデルとSOTAモデル(例えば、Dolly-2、Mistral、Llama-3ベースバージョン、GPT-3.5)を比較して、人間の評価を行う。
この結果から、3つのSFTモデル全てが相容れない性能を示したが、最大の命令データセット(SFT-70K)で訓練されたモデルは、評価の準備ができている最も有効なアウトプットにつながった。
しかしながら、SFTモデルは、出力の説明の観点から、より大きなモデル、例えば、GPT 3.5よりも優れた性能を発揮するが、多くの出力は、現実のアセスメントに実際に備えるために、人間の介入を必要としている。
関連論文リスト
- ILLUMINER: Instruction-tuned Large Language Models as Few-shot Intent Classifier and Slot Filler [1.9015367254988451]
本研究では、インテント分類(IC)とスロットフィリング(SF)のための人気のあるベンチマークデータセット上で、命令調整モデル(インストラクション-LLM)を評価する。
Instruct-LLM の言語生成タスクとして IC と SF をフレーミングする ILLUMINER を導入する。
FLAN-T5 11Bモデルを用いた複数のベースラインとの総合的な比較から,本手法は最先端のジョイントIC+SF法やGPT3.5 (175B) を用いたテキスト内学習よりも優れていた。
論文 参考訳(メタデータ) (2024-03-26T09:41:21Z) - Large language models for aspect-based sentiment analysis [0.0]
GPT-4 と GPT-3.5 の性能をゼロショット, 少ないショット, 微調整で評価した。
微調整 GPT-3.5 は、共同アスペクト項抽出と極性分類タスクにおいて最先端の F1 スコア 83.8 を達成する。
論文 参考訳(メタデータ) (2023-10-27T10:03:21Z) - Zephyr: Direct Distillation of LM Alignment [59.03530095974505]
ユーザ意図に合わせた,より小さな言語モデルの実現を目指しています。
従来の研究では、より大規模なモデルに教師付き微調整(dSFT)を適用することにより、タスクの精度が大幅に向上することが示されている。
蒸留直接選好最適化(dDPO)を用いて,意図のアライメントを大幅に改善したチャットモデルを学習する。
論文 参考訳(メタデータ) (2023-10-25T19:25:16Z) - How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文 参考訳(メタデータ) (2023-06-07T19:59:23Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - LIMA: Less Is More for Alignment [112.93890201395477]
65B パラメータ LLaMa 言語モデル LIMA のトレーニングを行う。
LIMAは、非常に強力なパフォーマンスを示し、少数の例から特定のレスポンスフォーマットに従うことを学ぶ。
制御されたヒトの研究では、LIMAからの反応は43%の症例において、GPT-4に等しいか、厳格に好まれる。
論文 参考訳(メタデータ) (2023-05-18T17:45:22Z) - AMR Parsing with Instruction Fine-tuned Pre-trained Language Models [21.767812442354387]
そこで本稿では,FLAN-T5 命令を微調整した言語モデルを用いて AMR 解析を行う。
AMR2.0,AMR3.0,BioAMRなどの各種AMR解析タスクに関する実験により,FLAN-T5微調整モデルが従来の最先端モデルより優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-04-24T17:12:17Z) - Scaling Instruction-Finetuned Language Models [126.4789306516927]
命令として表現されたデータセットの集合上での言語モデルの微調整は、モデル性能を改善することが示されている。
命令の微調整により,様々なモデルクラスの性能が劇的に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-20T16:58:32Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z) - ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language
Understanding and Generation [25.430130072811075]
大規模知識強化モデルの事前学習のための統合フレームワーク ERNIE 3.0 を提案する。
自動回帰ネットワークと自動エンコードネットワークを融合することで、トレーニングされたモデルを自然言語理解と生成タスクの両方に容易に適合させることができる。
我々は,テキストと大規模知識グラフからなる4TBコーパス上で,100億のパラメータでモデルを訓練した。
論文 参考訳(メタデータ) (2021-07-05T16:54:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。