論文の概要: Are LLMs Good Annotators for Discourse-level Event Relation Extraction?
- arxiv url: http://arxiv.org/abs/2407.19568v1
- Date: Sun, 28 Jul 2024 19:27:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 15:45:34.567074
- Title: Are LLMs Good Annotators for Discourse-level Event Relation Extraction?
- Title(参考訳): LLMs Good Annotator for Discourse-level Event Relation extract?
- Authors: Kangda Wei, Aayush Gautam, Ruihong Huang,
- Abstract要約: 大規模言語モデル (LLM) は、様々な自然言語処理タスクにおいて習熟度を示す。
本研究は, 教師あり学習によって確立されたベースラインと比較して, LLMの顕著な性能低下を明らかにした。
- 参考スコア(独自算出の注目度): 15.365993658296016
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated proficiency in a wide array of natural language processing tasks. However, its effectiveness over discourse-level event relation extraction (ERE) tasks remains unexplored. In this paper, we assess the effectiveness of LLMs in addressing discourse-level ERE tasks characterized by lengthy documents and intricate relations encompassing coreference, temporal, causal, and subevent types. Evaluation is conducted using an commercial model, GPT-3.5, and an open-source model, LLaMA-2. Our study reveals a notable underperformance of LLMs compared to the baseline established through supervised learning. Although Supervised Fine-Tuning (SFT) can improve LLMs performance, it does not scale well compared to the smaller supervised baseline model. Our quantitative and qualitative analysis shows that LLMs have several weaknesses when applied for extracting event relations, including a tendency to fabricate event mentions, and failures to capture transitivity rules among relations, detect long distance relations, or comprehend contexts with dense event mentions.
- Abstract(参考訳): 大規模言語モデル (LLM) は、様々な自然言語処理タスクにおいて習熟度を示す。
しかし、談話レベルの事象関連抽出(ERE)タスクに対する効果は未解明のままである。
本稿では,LLMが文書の長文化や,コア参照,時間的,因果,従属型を含む複雑な関係を特徴とする談話レベルのEREタスクに対処する上での有効性を評価する。
商用モデル GPT-3.5 とオープンソースモデル LLaMA-2 を用いて評価を行った。
本研究は, 教師あり学習によって確立されたベースラインと比較して, LLMの顕著な性能低下を明らかにした。
Supervised Fine-Tuning (SFT) はLLMの性能を向上させることができるが、より小さい教師付きベースラインモデルに比べてスケールが良くない。
定量的および定性的な分析により,LLMは事象関係を抽出する際には,事象記述の作成傾向や,関係間の遷移規則の捕捉,長距離関係の検出,イベント記述の密接なコンテキストの理解など,いくつかの弱点があることが示された。
関連論文リスト
- Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Small Language Model Is a Good Guide for Large Language Model in Chinese
Entity Relation Extraction [13.344709924683471]
本稿では,モデルコラボレーションフレームワークSLCoLMを提案する。
textit-Training-Guide-Predict' 戦略を用いて,事前学習言語モデル (PLM) と大規模言語モデル (LLM) の強みを組み合わせる。
関係型に富んだREデータセットに対する実験により,本論文のアプローチが長い関係型のREを促進することを示す。
論文 参考訳(メタデータ) (2024-02-22T08:26:56Z) - Chain of History: Learning and Forecasting with LLMs for Temporal
Knowledge Graph Completion [24.545917737620197]
時間知識グラフ補完(TKGC)は、将来のタイムスタンプにおけるイベントリンクの欠落を予測する複雑なタスクである。
本稿では,時間的知識グラフの推論において,大規模言語モデルの利点を活用するための総合的な視点を提供することを目的とする。
論文 参考訳(メタデータ) (2024-01-11T17:42:47Z) - Are Large Language Models Temporally Grounded? [38.481606493496514]
文章を記述したLarge Language Model (LLM) を提供する。
イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。
これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
論文 参考訳(メタデータ) (2023-11-14T18:57:15Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。