論文の概要: Aligning Instruction Tasks Unlocks Large Language Models as Zero-Shot
Relation Extractors
- arxiv url: http://arxiv.org/abs/2305.11159v1
- Date: Thu, 18 May 2023 17:48:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 13:41:57.096261
- Title: Aligning Instruction Tasks Unlocks Large Language Models as Zero-Shot
Relation Extractors
- Title(参考訳): ゼロショット・リレーション・エクストラクタとして大規模言語モデルをアンロックする命令タスクの調整
- Authors: Kai Zhang, Bernal Jim\'enez Guti\'errez, Yu Su
- Abstract要約: 大規模命令追従データセット上での細調整大型言語モデル(LLM)は、幅広いNLPタスクの性能を大幅に向上させる。
しかし、先進的な命令調整 LLM でさえ、関係抽出(RE)において小さな LM を上回りません。
本稿では,REを質問応答(QA)と整合させるフレームワークであるQA4REを提案する。
- 参考スコア(独自算出の注目度): 11.28397947587596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown that fine-tuning large language models (LLMs) on
large-scale instruction-following datasets substantially improves their
performance on a wide range of NLP tasks, especially in the zero-shot setting.
However, even advanced instruction-tuned LLMs still fail to outperform small
LMs on relation extraction (RE), a fundamental information extraction task. We
hypothesize that instruction-tuning has been unable to elicit strong RE
capabilities in LLMs due to RE's low incidence in instruction-tuning datasets,
making up less than 1% of all tasks (Wang et al., 2022). To address this
limitation, we propose QA4RE, a framework that aligns RE with question
answering (QA), a predominant task in instruction-tuning datasets.
Comprehensive zero-shot RE experiments over four datasets with two series of
instruction-tuned LLMs (six LLMs in total) demonstrate that our QA4RE framework
consistently improves LLM performance, strongly verifying our hypothesis and
enabling LLMs to outperform strong zero-shot baselines by a large margin.
Additionally, we provide thorough experiments and discussions to show the
robustness, few-shot effectiveness, and strong transferability of our QA4RE
framework. This work illustrates a promising way of adapting LLMs to
challenging and underrepresented tasks by aligning these tasks with more common
instruction-tuning tasks like QA.
- Abstract(参考訳): 最近の研究により、大規模命令追従データセット上での微調整大型言語モデル(LLM)は、特にゼロショット設定において、幅広いNLPタスクにおける性能を大幅に向上することが示された。
しかし、先進的な命令チューニング LLM でさえ、基本的な情報抽出タスクである関係抽出(RE)において、小さな LM よりも優れていない。
我々は、命令チューニングは、命令チューニングデータセットのre頻度が低いため、llmの強力なre能力を引き出すことができないと仮定し、すべてのタスクの1%に満たない(wang et al., 2022)。
この制限に対処するため、命令チューニングデータセットにおける主要なタスクである質問応答(QA)とREを一致させるフレームワークであるQA4REを提案する。
総合的なゼロショットRE実験を2つの命令調整LDM(合計6つのLLM)で行うことで、我々のQA4REフレームワークはLLMの性能を一貫して改善し、仮説を強く検証し、LLMが強いゼロショットベースラインを大きなマージンで上回ることを実証した。
さらに、我々はQA4REフレームワークの堅牢性、少数ショットの有効性、および強力な転送可能性を示す、徹底的な実験と議論を行っている。
この研究は、これらのタスクを、QAのようなより一般的な命令チューニングタスクと整合させることによって、挑戦的で表現不足なタスクにLLMを適用する、有望な方法を示している。
関連論文リスト
- PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Identifying Factual Inconsistency in Summaries: Towards Effective
Utilization of Large Language Model [50.71344457241456]
この研究は2つの重要な疑問に焦点をあてる: 現実の不整合検出に大規模言語モデル(LLM)を利用する最善の方法は何か、そして、どのようにしてより小さなLCMを高い効率と有効性で蒸留できるのか?
実験の結果、LLM自体が適切なパラダイム設計の下でこのタスクを無断で解決でき、訓練されたベースラインが平均2.8%を超えることが示唆された。
実用性をさらに向上するため,我々はより小型のオープンソースLCMを蒸留し,要約全体を高精度にまとめることを目指す訓練戦略を提案する。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over
Tabular and Textual Data [77.66158066013924]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Large Language Model Cascades with Mixture of Thoughts Representations
for Cost-efficient Reasoning [19.472937476936636]
大きな言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示していますが、この強力なパフォーマンスは、しばしば有料のAPIサービスを使用するコストが高くなります。
本稿では, LLM のコスト削減を目的とした LLM カスケードの構築について検討する。
提案するカスケードは,より強力なLCMのみを使用すれば性能が向上するが,コストの40%しか必要としない。
論文 参考訳(メタデータ) (2023-10-04T18:21:17Z) - Evaluating the Robustness to Instructions of Large Language Models [6.947956990248856]
微調整大型言語モデル(LLM)は、新しいタスクにおけるゼロショット能力を向上することができる。
Alpaca, Vicuna, WizardLM, 従来のタスク指向モデル(Flan-T5-XL/XXL, T0++)を含む6つのモデルを評価する。
異なるスケールのFLAN-T5モデルのRE命令に対するロバスト性は、QA命令に対するロバスト性よりも劣っていることがわかった。
論文 参考訳(メタデータ) (2023-08-28T04:57:07Z) - Small Language Models Improve Giants by Rewriting Their Outputs [18.025736098795296]
本研究では,大規模言語モデル(LLM)の性能向上にトレーニングデータを活用するという課題に,微調整なしで対処する。
我々は、数発のプロンプトによってLSMから候補のプールを作成し、コンパクトモデルLM-corrector(LMCor)を用いて、これらの候補をマージして拡張出力を生成するように特別に訓練した。
4つの自然言語生成タスクの実験により、小さな LMCor モデル (250M) でさえ、LLM (62B) の少数ショット性能を大幅に改善し、マッチングや標準微調整よりも優れることを示した。
論文 参考訳(メタデータ) (2023-05-22T22:07:50Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。