論文の概要: Can we obtain significant success in RST discourse parsing by using
Large Language Models?
- arxiv url: http://arxiv.org/abs/2403.05065v1
- Date: Fri, 8 Mar 2024 05:34:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 20:58:57.114212
- Title: Can we obtain significant success in RST discourse parsing by using
Large Language Models?
- Title(参考訳): 大規模言語モデルを用いたrst談話解析で有意な成功を収めることができるか?
- Authors: Aru Maekawa, Tsutomu Hirao, Hidetaka Kamigaito, Manabu Okumura
- Abstract要約: デコーダのみの大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクに大きな影響を与えている。
本稿では,LLMがRST(Rhetorical Structure Theory)の言論解析にいかに有用かを検討する。
RST-DT, Instr-DT, GUMコーパスの3つのベンチマークデータセットによる実験結果から, ボトムアップ戦略に700億のパラメータを持つLlama 2が, 有意な差を示した。
- 参考スコア(独自算出の注目度): 32.94244684710954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, decoder-only pre-trained large language models (LLMs), with several
tens of billion parameters, have significantly impacted a wide range of natural
language processing (NLP) tasks. While encoder-only or encoder-decoder
pre-trained language models have already proved to be effective in discourse
parsing, the extent to which LLMs can perform this task remains an open
research question. Therefore, this paper explores how beneficial such LLMs are
for Rhetorical Structure Theory (RST) discourse parsing. Here, the parsing
process for both fundamental top-down and bottom-up strategies is converted
into prompts, which LLMs can work with. We employ Llama 2 and fine-tune it with
QLoRA, which has fewer parameters that can be tuned. Experimental results on
three benchmark datasets, RST-DT, Instr-DT, and the GUM corpus, demonstrate
that Llama 2 with 70 billion parameters in the bottom-up strategy obtained
state-of-the-art (SOTA) results with significant differences. Furthermore, our
parsers demonstrated generalizability when evaluated on RST-DT, showing that,
in spite of being trained with the GUM corpus, it obtained similar performances
to those of existing parsers trained with RST-DT.
- Abstract(参考訳): 近年,数千億のパラメータを持つデコーダのみの事前学習型大規模言語モデル(LLM)が,自然言語処理(NLP)タスクに多大な影響を与えている。
エンコーダ限定またはエンコーダデコーダ事前訓練された言語モデルは、既に言論解析に有効であることが証明されているが、LLMがこのタスクを実行できる範囲は、オープンな研究課題である。
そこで本稿では,LLMがRST(Rhetorical Structure Theory)の言論解析にいかに有用かを検討する。
ここでは、基本的なトップダウン戦略とボトムアップ戦略の両方のパースプロセスがプロンプトに変換され、LCMが機能する。
私たちはllama 2を採用し、qloraで微調整しています。
RST-DT, Instr-DT, GUMコーパスの3つのベンチマークデータセットによる実験結果から, ボトムアップ戦略に700億のパラメータを持つLlama 2が, 最先端(SOTA)に有意な差異をもたらすことが示された。
さらに, rst-dtで評価した場合の一般化性が示され, ガムコーパスで訓練されたにもかかわらず, rst-dtで訓練された既存のパーサーと同様の性能を得た。
関連論文リスト
- Prefix Text as a Yarn: Eliciting Non-English Alignment in Foundation Language Model [50.339632513018934]
教師付き微調整(SFT)は、基礎大言語モデル(LLM)の出力を特定の嗜好に合わせるための単純なアプローチである。
我々はこの仮説を言語間タスクの範囲内で批判的に検証する。
タスク関連トークンを最小化するPreTTYという新しいトレーニングフリーアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T17:19:36Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。
本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - Constituency Parsing using LLMs [22.932447078664232]
選挙区解析は基本的だが未解決の自然言語処理タスクである。
出力木を記号列に変換するために3つの線形化戦略を用いており、LLMは線形化木を生成することで領域解析を解くことができる。
本研究では, LLMの性能, 一般化能力, 選挙区解析における課題について考察した。
論文 参考訳(メタデータ) (2023-10-30T11:39:11Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Pre-trained Language Models for Keyphrase Generation: A Thorough
Empirical Study [76.52997424694767]
事前学習言語モデルを用いて,キーフレーズ抽出とキーフレーズ生成の詳細な実験を行った。
PLMは、競争力のある高リソース性能と最先端の低リソース性能を持つことを示す。
さらに,領域内のBERTライクなPLMを用いて,強大かつデータ効率のよいキーフレーズ生成モデルを構築できることが示唆された。
論文 参考訳(メタデータ) (2022-12-20T13:20:21Z) - Large Language Models are Zero-Shot Reasoners [28.6899375595088]
思考の連鎖(CoT)プロンプトは、ステップバイステップの回答例を通して複雑な多段階推論を引き出す手法である。
LLMは、各回答の前に単に「ステップバイステップ」を追加して、まともなゼロショット推論子であることを示す。
実験結果から,同一のプロンプトテンプレートを用いたZero-shot-CoTはゼロショットLLM性能を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-24T09:22:26Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。