論文の概要: Aligning Instruction Tasks Unlocks Large Language Models as Zero-Shot
Relation Extractors
- arxiv url: http://arxiv.org/abs/2305.11159v1
- Date: Thu, 18 May 2023 17:48:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 13:41:57.096261
- Title: Aligning Instruction Tasks Unlocks Large Language Models as Zero-Shot
Relation Extractors
- Title(参考訳): ゼロショット・リレーション・エクストラクタとして大規模言語モデルをアンロックする命令タスクの調整
- Authors: Kai Zhang, Bernal Jim\'enez Guti\'errez, Yu Su
- Abstract要約: 大規模命令追従データセット上での細調整大型言語モデル(LLM)は、幅広いNLPタスクの性能を大幅に向上させる。
しかし、先進的な命令調整 LLM でさえ、関係抽出(RE)において小さな LM を上回りません。
本稿では,REを質問応答(QA)と整合させるフレームワークであるQA4REを提案する。
- 参考スコア(独自算出の注目度): 11.28397947587596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown that fine-tuning large language models (LLMs) on
large-scale instruction-following datasets substantially improves their
performance on a wide range of NLP tasks, especially in the zero-shot setting.
However, even advanced instruction-tuned LLMs still fail to outperform small
LMs on relation extraction (RE), a fundamental information extraction task. We
hypothesize that instruction-tuning has been unable to elicit strong RE
capabilities in LLMs due to RE's low incidence in instruction-tuning datasets,
making up less than 1% of all tasks (Wang et al., 2022). To address this
limitation, we propose QA4RE, a framework that aligns RE with question
answering (QA), a predominant task in instruction-tuning datasets.
Comprehensive zero-shot RE experiments over four datasets with two series of
instruction-tuned LLMs (six LLMs in total) demonstrate that our QA4RE framework
consistently improves LLM performance, strongly verifying our hypothesis and
enabling LLMs to outperform strong zero-shot baselines by a large margin.
Additionally, we provide thorough experiments and discussions to show the
robustness, few-shot effectiveness, and strong transferability of our QA4RE
framework. This work illustrates a promising way of adapting LLMs to
challenging and underrepresented tasks by aligning these tasks with more common
instruction-tuning tasks like QA.
- Abstract(参考訳): 最近の研究により、大規模命令追従データセット上での微調整大型言語モデル(LLM)は、特にゼロショット設定において、幅広いNLPタスクにおける性能を大幅に向上することが示された。
しかし、先進的な命令チューニング LLM でさえ、基本的な情報抽出タスクである関係抽出(RE)において、小さな LM よりも優れていない。
我々は、命令チューニングは、命令チューニングデータセットのre頻度が低いため、llmの強力なre能力を引き出すことができないと仮定し、すべてのタスクの1%に満たない(wang et al., 2022)。
この制限に対処するため、命令チューニングデータセットにおける主要なタスクである質問応答(QA)とREを一致させるフレームワークであるQA4REを提案する。
総合的なゼロショットRE実験を2つの命令調整LDM(合計6つのLLM)で行うことで、我々のQA4REフレームワークはLLMの性能を一貫して改善し、仮説を強く検証し、LLMが強いゼロショットベースラインを大きなマージンで上回ることを実証した。
さらに、我々はQA4REフレームワークの堅牢性、少数ショットの有効性、および強力な転送可能性を示す、徹底的な実験と議論を行っている。
この研究は、これらのタスクを、QAのようなより一般的な命令チューニングタスクと整合させることによって、挑戦的で表現不足なタスクにLLMを適用する、有望な方法を示している。
関連論文リスト
- Rethinking VLMs and LLMs for Image Classification [6.550471260627169]
大きな言語モデル(LLM)は、新しい機能を実現するために、Visual Language Models(VLM)と統合されつつある。
オブジェクト認識やシーン認識では,LLMを使わないVLMの方が,VLMよりも優れた性能が得られることを示す。
本稿では,視覚的タスクをタスクに適したモデルに効率的にルーティングする,比較的小さなLCMを含む軽量な修正法を提案する。
論文 参考訳(メタデータ) (2024-10-03T23:40:21Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Evaluating the Robustness to Instructions of Large Language Models [6.947956990248856]
微調整大型言語モデル(LLM)は、新しいタスクにおけるゼロショット能力を向上することができる。
Alpaca, Vicuna, WizardLM, 従来のタスク指向モデル(Flan-T5-XL/XXL, T0++)を含む6つのモデルを評価する。
異なるスケールのFLAN-T5モデルのRE命令に対するロバスト性は、QA命令に対するロバスト性よりも劣っていることがわかった。
論文 参考訳(メタデータ) (2023-08-28T04:57:07Z) - Small Language Models Improve Giants by Rewriting Their Outputs [18.025736098795296]
本研究では,大規模言語モデル(LLM)の性能向上にトレーニングデータを活用するという課題に,微調整なしで対処する。
我々は、数発のプロンプトによってLSMから候補のプールを作成し、コンパクトモデルLM-corrector(LMCor)を用いて、これらの候補をマージして拡張出力を生成するように特別に訓練した。
4つの自然言語生成タスクの実験により、小さな LMCor モデル (250M) でさえ、LLM (62B) の少数ショット性能を大幅に改善し、マッチングや標準微調整よりも優れることを示した。
論文 参考訳(メタデータ) (2023-05-22T22:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。