論文の概要: Small Models Are (Still) Effective Cross-Domain Argument Extractors
- arxiv url: http://arxiv.org/abs/2404.08579v1
- Date: Fri, 12 Apr 2024 16:23:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 14:27:45.332979
- Title: Small Models Are (Still) Effective Cross-Domain Argument Extractors
- Title(参考訳): 小型モデルは(まだ)有効なクロスドメイン引数エクストラクタである
- Authors: William Gantt, Aaron Steven White,
- Abstract要約: 文と文書レベルの6つのEAEデータセット上で,質問応答 (QA) とテンプレート埋め込み (TI) を用いたゼロショット転送について検討する。
GPT-3.5 や GPT-4 よりも優れたゼロショット性能が得られることを示す。
- 参考スコア(独自算出の注目度): 1.8698740023858036
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Effective ontology transfer has been a major goal of recent work on event argument extraction (EAE). Two methods in particular -- question answering (QA) and template infilling (TI) -- have emerged as promising approaches to this problem. However, detailed explorations of these techniques' ability to actually enable this transfer are lacking. In this work, we provide such a study, exploring zero-shot transfer using both techniques on six major EAE datasets at both the sentence and document levels. Further, we challenge the growing reliance on LLMs for zero-shot extraction, showing that vastly smaller models trained on an appropriate source ontology can yield zero-shot performance superior to that of GPT-3.5 or GPT-4.
- Abstract(参考訳): 近年のイベント引数抽出(EAE)研究において,効果的なオントロジー伝達が大きな目標となっている。
特に質問応答(QA)とテンプレート補充(TI)という2つの手法が,この問題に対する有望なアプローチとして現れている。
しかし、これらの技術が実際にこの移行を可能にする能力について、詳細な調査は行われていない。
本研究では,文レベルと文書レベルの両方で,主要なAEデータセットの6つの手法を用いてゼロショット転送を探索する。
さらに, ゼロショット抽出におけるLCMへの依存度の向上に挑戦し, GPT-3.5 や GPT-4 に比べて, 適切なオントロジーで訓練したモデルの方がはるかに小さなモデルでゼロショット性能が得られることを示した。
関連論文リスト
- A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - Unleashing the Power of Generic Segmentation Models: A Simple Baseline for Infrared Small Target Detection [57.666055329221194]
本稿では,Segment Anything Model (SAM) などのジェネリックセグメンテーションモデルの赤外線小物体検出タスクへの適応について検討する。
提案モデルでは,既存の手法と比較して,精度とスループットの両方で性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-07T05:31:24Z) - Retrieval-Augmented Generation-based Relation Extraction [0.0]
Retrieved-Augmented Generation-based Relation extract (RAG4RE) を提案する。
本研究は,Large Language Models (LLM) を用いたRAG4RE手法の有効性を評価する。
我々のRAG4REアプローチが従来のREアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-20T14:42:43Z) - Large Language Model for Vulnerability Detection: Emerging Results and
Future Directions [15.981132063061661]
従来の学習ベースの脆弱性検出方法は、中規模の事前訓練モデルか、スクラッチから小さなニューラルネットワークに頼っていた。
近年のLarge Pre-Trained Language Models (LLMs) の進歩は,様々なタスクにおいて顕著な数発の学習能力を示した。
論文 参考訳(メタデータ) (2024-01-27T17:39:36Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Sci-CoT: Leveraging Large Language Models for Enhanced Knowledge
Distillation in Small Models for Scientific QA [5.117094291273979]
大規模言語モデル(LLM)は、幅広い下流タスクで優れたパフォーマンスを示している。
本稿では2段階のフレームワークであるSci-CoTを提案する。
我々の8000万のパラメータモデルは、いくつかのショット設定の下でARC-EasyデータセットにおけるBLOOM-176Bの性能を上回ることができる。
論文 参考訳(メタデータ) (2023-08-09T03:18:07Z) - An automatically discovered chain-of-thought prompt generalizes to novel
models and datasets [4.693905948827508]
チェーン・オブ・思想(CoT)推論能力は、大規模言語モデル(LLM)の性能と説明可能性を向上させることを約束する。
我々は、最近リリースされた6つのLDMに対してゼロショットプロンプトによって誘導される異なる推論戦略を比較した。
この結果から,CoT推論戦略のメリットは,様々なモデルやデータセットに対して頑健であることが示唆された。
論文 参考訳(メタデータ) (2023-05-04T15:07:20Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。