Fugu-MT 論文翻訳(概要): EvEval: A Comprehensive Evaluation of Event Semantics for Large Language Models

論文の概要: EvEval: A Comprehensive Evaluation of Event Semantics for Large Language Models

arxiv url: http://arxiv.org/abs/2305.15268v1
Date: Wed, 24 May 2023 15:55:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 14:42:16.725206
Title: EvEval: A Comprehensive Evaluation of Event Semantics for Large Language Models
Title（参考訳）: EvEval: 大規模言語モデルのためのイベントセマンティクスの総合評価
Authors: Zhengwei Tao, Zhi Jin, Xiaoying Bai, Haiyan Zhao, Yanlin Feng, Jia Li, Wenpeng Hu
Abstract要約: イベントは様々な文脈で発生の基本的な単位として機能する。最近の研究は、イベントセマンティック処理に対処するために大きな言語モデル(LLM)を活用し始めている。本稿では,イベントセマンティック処理における理解,推論,予測を包含する包括的なフレームワークを提案する。
参考スコア（独自算出の注目度）: 31.704144542866636
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Events serve as fundamental units of occurrence within various contexts. The processing of event semantics in textual information forms the basis of numerous natural language processing (NLP) applications. Recent studies have begun leveraging large language models (LLMs) to address event semantic processing. However, the extent that LLMs can effectively tackle these challenges remains uncertain. Furthermore, the lack of a comprehensive evaluation framework for event semantic processing poses a significant challenge in evaluating these capabilities. In this paper, we propose an overarching framework for event semantic processing, encompassing understanding, reasoning, and prediction, along with their fine-grained aspects. To comprehensively evaluate the event semantic processing abilities of models, we introduce a novel benchmark called EVEVAL. We collect 8 datasets that cover all aspects of event semantic processing. Extensive experiments are conducted on EVEVAL, leading to several noteworthy findings based on the obtained results.
Abstract（参考訳）: イベントは様々な文脈で発生の基本的な単位として機能する。テキスト情報におけるイベントセマンティクスの処理は、多くの自然言語処理(NLP)アプリケーションの基礎を形成する。最近の研究は、イベントセマンティック処理に対処するために大きな言語モデル(LLM)を活用し始めている。しかし、LLMがこれらの課題に効果的に対処できる範囲は、まだ不明である。さらに、イベントセマンティクス処理のための包括的な評価フレームワークが欠如していることは、これらの能力を評価する上で大きな課題となる。本稿では, イベントセマンティック処理の網羅的枠組みを提案し, 理解, 推論, 予測を包含し, そのきめ細かい側面を包含する。モデルのイベントセマンティック処理能力を総合的に評価するために,EVEVALと呼ばれる新しいベンチマークを導入する。イベントセマンティクス処理のすべての側面をカバーする8つのデータセットを収集します。 EVEVALで大規模な実験を行い、得られた結果に基づいていくつかの注目すべき結果を得た。

関連論文リスト

EventBench: Towards Comprehensive Benchmarking of Event-based MLLMs [53.41154446399572]
EventBenchは8つのタスクメトリクスと大規模なイベントストリームデータセットを提供するベンチマークである。我々は、GPT-5やGemini-2.5 Proのような最先端のクローズドソースモデル、Qwen2.5-VLやInternVL3といったオープンソースモデル、EventGPTのようなイベントベースのMLLMを評価した。
論文参考訳（メタデータ） (2025-11-23T13:39:01Z)
Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。 ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文参考訳（メタデータ） (2025-02-08T00:16:44Z)
Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文参考訳（メタデータ） (2024-10-24T17:56:08Z)
MAVEN-Fact: A Large-scale Event Factuality Detection Dataset [55.01875707021496]
我々は,MAVENデータセットに基づく大規模かつ高品質なEFDデータセットであるMAVEN-Factを紹介する。 MAVEN-Factには112,276のイベントのファクトリティアノテーションが含まれており、EFDデータセットとしては最大である。 MAVEN-Factは従来の微調整モデルと大規模言語モデル(LLM)の両方において困難であることを示す実験結果が得られた。
論文参考訳（メタデータ） (2024-07-22T03:43:46Z)
Synergetic Event Understanding: A Collaborative Approach to Cross-Document Event Coreference Resolution with Large Language Models [41.524192769406945]
クロスドキュメントイベントコア参照解決(CDECR)では、複数のドキュメントにまたがって、同じ実世界のイベントを参照するイベントをクラスタリングする。既存のアプローチでは、イベント参照のコンテキスト間の互換性に対処するために、小さな言語モデル(SLM)の微調整を利用している。本稿では,CDECR の協調的アプローチを提案し,汎用性のある LLM とタスク固有の SLM の両機能を活用している。
論文参考訳（メタデータ） (2024-06-04T09:35:47Z)
A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-15T00:03:16Z)
Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。 LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文参考訳（メタデータ） (2024-02-01T18:55:29Z)
TextEE: Benchmark, Reevaluation, Reflections, and Future Challenges in Event Extraction [131.7684896032888]
イベント抽出のための標準化され、公正で再現可能なベンチマークであるTextEEを提示する。 TextEEは、標準化されたデータ前処理スクリプトと、8つの異なるドメインにまたがる16のデータセットの分割を含む。 TextEEベンチマークで5つの大きな言語モデルを評価し、満足なパフォーマンスを達成するのにどのように苦労しているかを実証した。
論文参考訳（メタデータ） (2023-11-16T04:43:03Z)
Semantic Pivoting Model for Effective Event Detection [19.205550116466604]
Event Detectionは、構造化されていない記事からイベントインスタンスの参照を識別し、分類することを目的としている。イベント検出の既存のテクニックは、イベントタイプクラスを表現するために、均質な1ホットベクトルのみを使用しており、型の意味がタスクにとって重要であるという事実を無視している。本稿では,学習中の事前情報を明示的に組み込んで,入力とイベント間の意味的に意味のある相関関係を捉えるセマンティック・ピロリング・モデル(SPEED)を提案する。
論文参考訳（メタデータ） (2022-11-01T19:20:34Z)
Actuarial Applications of Natural Language Processing Using Transformers: Case Studies for Using Text Features in an Actuarial Context [0.0]
このチュートリアルは、テキストデータをアクチュアリ分類と回帰タスクに組み込むことを実証する。主な焦点はトランスフォーマーモデルを用いた手法である。このケーススタディは、多言語設定と長い入力シーケンスに関連する課題に取り組む。
論文参考訳（メタデータ） (2022-06-04T15:39:30Z)
Did the Cat Drink the Coffee? Challenging Transformers with Generalized Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文参考訳（メタデータ） (2021-07-22T20:52:26Z)
Masked Language Modeling and the Distributional Hypothesis: Order Word Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文参考訳（メタデータ） (2021-04-14T06:30:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。