論文の概要: EvEval: A Comprehensive Evaluation of Event Semantics for Large Language
Models
- arxiv url: http://arxiv.org/abs/2305.15268v1
- Date: Wed, 24 May 2023 15:55:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 14:42:16.725206
- Title: EvEval: A Comprehensive Evaluation of Event Semantics for Large Language
Models
- Title(参考訳): EvEval: 大規模言語モデルのためのイベントセマンティクスの総合評価
- Authors: Zhengwei Tao, Zhi Jin, Xiaoying Bai, Haiyan Zhao, Yanlin Feng, Jia Li,
Wenpeng Hu
- Abstract要約: イベントは様々な文脈で発生の基本的な単位として機能する。
最近の研究は、イベントセマンティック処理に対処するために大きな言語モデル(LLM)を活用し始めている。
本稿では,イベントセマンティック処理における理解,推論,予測を包含する包括的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 31.704144542866636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Events serve as fundamental units of occurrence within various contexts. The
processing of event semantics in textual information forms the basis of
numerous natural language processing (NLP) applications. Recent studies have
begun leveraging large language models (LLMs) to address event semantic
processing. However, the extent that LLMs can effectively tackle these
challenges remains uncertain. Furthermore, the lack of a comprehensive
evaluation framework for event semantic processing poses a significant
challenge in evaluating these capabilities. In this paper, we propose an
overarching framework for event semantic processing, encompassing
understanding, reasoning, and prediction, along with their fine-grained
aspects. To comprehensively evaluate the event semantic processing abilities of
models, we introduce a novel benchmark called EVEVAL. We collect 8 datasets
that cover all aspects of event semantic processing. Extensive experiments are
conducted on EVEVAL, leading to several noteworthy findings based on the
obtained results.
- Abstract(参考訳): イベントは様々な文脈で発生の基本的な単位として機能する。
テキスト情報におけるイベントセマンティクスの処理は、多くの自然言語処理(NLP)アプリケーションの基礎を形成する。
最近の研究は、イベントセマンティック処理に対処するために大きな言語モデル(LLM)を活用し始めている。
しかし、LLMがこれらの課題に効果的に対処できる範囲は、まだ不明である。
さらに、イベントセマンティクス処理のための包括的な評価フレームワークが欠如していることは、これらの能力を評価する上で大きな課題となる。
本稿では, イベントセマンティック処理の網羅的枠組みを提案し, 理解, 推論, 予測を包含し, そのきめ細かい側面を包含する。
モデルのイベントセマンティック処理能力を総合的に評価するために,EVEVALと呼ばれる新しいベンチマークを導入する。
イベントセマンティクス処理のすべての側面をカバーする8つのデータセットを収集します。
EVEVALで大規模な実験を行い、得られた結果に基づいていくつかの注目すべき結果を得た。
関連論文リスト
- MAVEN-Fact: A Large-scale Event Factuality Detection Dataset [55.01875707021496]
我々は,MAVENデータセットに基づく大規模かつ高品質なEFDデータセットであるMAVEN-Factを紹介する。
MAVEN-Factには112,276のイベントのファクトリティアノテーションが含まれており、EFDデータセットとしては最大である。
MAVEN-Factは従来の微調整モデルと大規模言語モデル(LLM)の両方において困難であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-07-22T03:43:46Z) - Synergetic Event Understanding: A Collaborative Approach to Cross-Document Event Coreference Resolution with Large Language Models [41.524192769406945]
クロスドキュメントイベントコア参照解決(CDECR)では、複数のドキュメントにまたがって、同じ実世界のイベントを参照するイベントをクラスタリングする。
既存のアプローチでは、イベント参照のコンテキスト間の互換性に対処するために、小さな言語モデル(SLM)の微調整を利用している。
本稿では,CDECR の協調的アプローチを提案し,汎用性のある LLM とタスク固有の SLM の両機能を活用している。
論文 参考訳(メタデータ) (2024-06-04T09:35:47Z) - A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - TextEE: Benchmark, Reevaluation, Reflections, and Future Challenges in Event Extraction [131.7684896032888]
イベント抽出のための標準化され、公正で再現可能なベンチマークであるTextEEを提示する。
TextEEは、標準化されたデータ前処理スクリプトと、8つの異なるドメインにまたがる16のデータセットの分割を含む。
TextEEベンチマークで5つの大きな言語モデルを評価し、満足なパフォーマンスを達成するのにどのように苦労しているかを実証した。
論文 参考訳(メタデータ) (2023-11-16T04:43:03Z) - Semantic Pivoting Model for Effective Event Detection [19.205550116466604]
Event Detectionは、構造化されていない記事からイベントインスタンスの参照を識別し、分類することを目的としている。
イベント検出の既存のテクニックは、イベントタイプクラスを表現するために、均質な1ホットベクトルのみを使用しており、型の意味がタスクにとって重要であるという事実を無視している。
本稿では,学習中の事前情報を明示的に組み込んで,入力とイベント間の意味的に意味のある相関関係を捉えるセマンティック・ピロリング・モデル(SPEED)を提案する。
論文 参考訳(メタデータ) (2022-11-01T19:20:34Z) - Actuarial Applications of Natural Language Processing Using
Transformers: Case Studies for Using Text Features in an Actuarial Context [0.0]
このチュートリアルは、テキストデータをアクチュアリ分類と回帰タスクに組み込むことを実証する。
主な焦点はトランスフォーマーモデルを用いた手法である。
このケーススタディは、多言語設定と長い入力シーケンスに関連する課題に取り組む。
論文 参考訳(メタデータ) (2022-06-04T15:39:30Z) - Reliable Shot Identification for Complex Event Detection via
Visual-Semantic Embedding [72.9370352430965]
本稿では,映像中の事象検出のための視覚的意味的誘導損失法を提案する。
カリキュラム学習に動機付け,高い信頼性の事例で分類器の訓練を開始するために,負の弾性正規化項を導入する。
提案する非ネット正規化問題の解法として,代替最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-12T11:46:56Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。