論文の概要: AMR Parsing with Instruction Fine-tuned Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2304.12272v1
- Date: Mon, 24 Apr 2023 17:12:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 14:08:35.806414
- Title: AMR Parsing with Instruction Fine-tuned Pre-trained Language Models
- Title(参考訳): 微調整事前学習言語モデルを用いたAMR解析
- Authors: Young-Suk Lee, Ram\'on Fernandez Astudillo, Radu Florian, Tahira
Naseem, Salim Roukos
- Abstract要約: そこで本稿では,FLAN-T5 命令を微調整した言語モデルを用いて AMR 解析を行う。
AMR2.0,AMR3.0,BioAMRなどの各種AMR解析タスクに関する実験により,FLAN-T5微調整モデルが従来の最先端モデルより優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 21.767812442354387
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Instruction fine-tuned language models on a collection of instruction
annotated datasets (FLAN) have shown highly effective to improve model
performance and generalization to unseen tasks. However, a majority of standard
parsing tasks including abstract meaning representation (AMR), universal
dependency (UD), semantic role labeling (SRL) has been excluded from the FLAN
collections for both model training and evaluations. In this paper, we take one
of such instruction fine-tuned pre-trained language models, i.e. FLAN-T5, and
fine-tune them for AMR parsing. Our extensive experiments on various AMR
parsing tasks including AMR2.0, AMR3.0 and BioAMR indicate that FLAN-T5
fine-tuned models out-perform previous state-of-the-art models across all
tasks. In addition, full fine-tuning followed by the parameter efficient
fine-tuning, LoRA, further improves the model performances, setting new
state-of-the-arts in Smatch on AMR2.0 (86.4), AMR3.0 (84.9) and BioAMR (82.3).
- Abstract(参考訳): インストラクションアノテートデータセット(flan)の集合上のインストラクション微調整言語モデル(インストラクション微調整言語モデル)は、モデルの性能向上と未認識タスクの一般化に非常に効果的であることが示されている。
しかしながら、抽象的意味表現(AMR)、普遍的依存(UD)、意味的役割ラベル付け(SRL)といった標準的な構文解析タスクの大部分は、モデルトレーニングと評価の両方のためにFLANコレクションから除外されている。
本稿では,flan-t5などの事前学習型言語モデルを用いてamr解析を行う。
AMR2.0、AMR3.0、BioAMRを含む様々なAMR解析タスクに関する広範な実験は、FLAN-T5微調整モデルが全てのタスクにおいて過去の最先端モデルより優れていることを示している。
さらに、完全な微調整とパラメータ効率の良い微調整(LoRA)によりモデル性能が向上し、Smatch on AMR2.0 (86.4)、AMR3.0 (84.9)、BioAMR (82.3)に新たな最先端技術が設定された。
関連論文リスト
- Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - ILLUMINER: Instruction-tuned Large Language Models as Few-shot Intent Classifier and Slot Filler [1.9015367254988451]
本研究では、インテント分類(IC)とスロットフィリング(SF)のための人気のあるベンチマークデータセット上で、命令調整モデル(インストラクション-LLM)を評価する。
Instruct-LLM の言語生成タスクとして IC と SF をフレーミングする ILLUMINER を導入する。
FLAN-T5 11Bモデルを用いた複数のベースラインとの総合的な比較から,本手法は最先端のジョイントIC+SF法やGPT3.5 (175B) を用いたテキスト内学習よりも優れていた。
論文 参考訳(メタデータ) (2024-03-26T09:41:21Z) - Large language models for aspect-based sentiment analysis [0.0]
GPT-4 と GPT-3.5 の性能をゼロショット, 少ないショット, 微調整で評価した。
微調整 GPT-3.5 は、共同アスペクト項抽出と極性分類タスクにおいて最先端の F1 スコア 83.8 を達成する。
論文 参考訳(メタデータ) (2023-10-27T10:03:21Z) - Evaluating the Robustness to Instructions of Large Language Models [6.947956990248856]
微調整大型言語モデル(LLM)は、新しいタスクにおけるゼロショット能力を向上することができる。
Alpaca, Vicuna, WizardLM, 従来のタスク指向モデル(Flan-T5-XL/XXL, T0++)を含む6つのモデルを評価する。
異なるスケールのFLAN-T5モデルのRE命令に対するロバスト性は、QA命令に対するロバスト性よりも劣っていることがわかった。
論文 参考訳(メタデータ) (2023-08-28T04:57:07Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Scaling Instruction-Finetuned Language Models [126.4789306516927]
命令として表現されたデータセットの集合上での言語モデルの微調整は、モデル性能を改善することが示されている。
命令の微調整により,様々なモデルクラスの性能が劇的に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-20T16:58:32Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Improving AMR Parsing with Sequence-to-Sequence Pre-training [39.33133978535497]
本稿では,Sequence-to-Sequence (seq2seq) AMR解析に焦点を当てる。
単体および関節の両方で事前学習モデルを構築するために,Seq2seq事前学習手法を提案する。
実験の結果,シングルモデルとジョイントモデルの両方で性能が有意に向上した。
論文 参考訳(メタデータ) (2020-10-05T04:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。