Fugu-MT 論文翻訳(概要): Dynamic Benchmarking of Masked Language Models on Temporal Concept Drift with Multiple Views

論文の概要: Dynamic Benchmarking of Masked Language Models on Temporal Concept Drift with Multiple Views

arxiv url: http://arxiv.org/abs/2302.12297v1
Date: Thu, 23 Feb 2023 19:24:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-27 15:26:41.818215
Title: Dynamic Benchmarking of Masked Language Models on Temporal Concept Drift with Multiple Views
Title（参考訳）: 複数の視点を持つ時間的概念ドリフトにおけるマスケプ言語モデルの動的ベンチマーク
Authors: Katerina Margatina, Shuai Wang, Yogarshi Vyas, Neha Anna John, Yassine Benajiba, Miguel Ballesteros
Abstract要約: 我々は、時間的概念ドリフトの効果を評価するために設計された一連のテストに対して、プレトレーニング言語モデル(MLM)を11ドルでベンチマークした。具体的には、任意の時間の時間的テストセットを動的に生成する包括的なフレームワークを提供する。
参考スコア（独自算出の注目度）: 24.470873436741073
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Temporal concept drift refers to the problem of data changing over time. In NLP, that would entail that language (e.g. new expressions, meaning shifts) and factual knowledge (e.g. new concepts, updated facts) evolve over time. Focusing on the latter, we benchmark $11$ pretrained masked language models (MLMs) on a series of tests designed to evaluate the effect of temporal concept drift, as it is crucial that widely used language models remain up-to-date with the ever-evolving factual updates of the real world. Specifically, we provide a holistic framework that (1) dynamically creates temporal test sets of any time granularity (e.g. month, quarter, year) of factual data from Wikidata, (2) constructs fine-grained splits of tests (e.g. updated, new, unchanged facts) to ensure comprehensive analysis, and (3) evaluates MLMs in three distinct ways (single-token probing, multi-token generation, MLM scoring). In contrast to prior work, our framework aims to unveil how robust an MLM is over time and thus to provide a signal in case it has become outdated, by leveraging multiple views of evaluation.
Abstract（参考訳）: 時間的概念ドリフトは、時間とともに変化するデータの問題を指す。 NLPでは、言語(例えば、新しい表現、つまり変化)と事実知識(例えば、新しい概念、更新された事実)が時間とともに進化する。後者に着目して、我々は、時間的概念ドリフトの効果を評価するために設計された一連のテストに対して、11ドルの事前訓練されたマスク付き言語モデル(MLM)をベンチマークする。具体的には,(1) Wikidata から得られた実データの時間的粒度(月,四半期,年)の時間的テストセットを動的に生成し,(2) 総合的な分析を確実にするため,(2) テストのきめ細かい分割(更新,更新,変更のない事実)を構築し,(3) MDM を3つの異なる方法で評価する,という総合的な枠組みを提供する。従来の作業とは対照的に,mlmの堅牢性を明らかにすることを目的としたフレームワークでは,複数の評価の視点を活用することで,mlmが時代遅れになった場合の信号を提供する。

関連論文リスト

New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。 MLLM(Multimodal Large Language Models)の試験場として機能する。
論文参考訳（メタデータ） (2025-02-27T13:58:44Z)
ChronoSense: Exploring Temporal Understanding in Large Language Models with Time Intervals of Events [0.20132569095596248]
我々はChronoSenseについて紹介する。ChronoSenseは大規模言語モデルの時間的理解を評価するための新しいベンチマークである。このベンチマークを用いて7つのLLMの性能評価を行い, モデルがアレン関係, 対称関係であっても, 全く異なる扱いをすることを示した。全体として、モデルの性能の低さは、LLMにおける時間的理解の改善の必要性を強調している。
論文参考訳（メタデータ） (2025-01-06T14:27:41Z)
Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文参考訳（メタデータ） (2024-10-24T17:56:08Z)
FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文参考訳（メタデータ） (2024-09-23T06:56:51Z)
Analyzing Temporal Complex Events with Large Language Models? A Benchmark towards Temporal, Long Context Understanding [57.62275091656578]
時間的複合イベント(TCE)として、長い期間にわたって多くのニュース記事から構成される複合イベントについて述べる。本稿では,Large Language Models (LLMs) を用いて,TCE内のイベントチェーンを系統的に抽出し,解析する手法を提案する。
論文参考訳（メタデータ） (2024-06-04T16:42:17Z)
Towards Effective Time-Aware Language Representation: Exploring Enhanced Temporal Understanding in Language Models [24.784375155633427]
BiTimeBERT 2.0は、テンポラリニュース記事コレクションに事前トレーニングされた新しい言語モデルである。それぞれの目的は、時間情報のユニークな側面を目標としている。その結果、BiTimeBERT 2.0はBERTや他の既存のトレーニング済みモデルよりも優れています。
論文参考訳（メタデータ） (2024-06-04T00:30:37Z)
Exploration of Masked and Causal Language Modelling for Text Generation [6.26998839917804]
本稿では,テキスト生成タスクにおける因果言語モデリング手法の広範な比較を行う。まず、定量的な指標を用いて、コヒーレンスと文法的正当性を分析する定性的な人的評価を行う。その結果、すべてのデータセットでテキスト生成において、CLMは一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2024-05-21T09:33:31Z)
Is Your LLM Outdated? Evaluating LLMs at Temporal Generalization [37.58752947129519]
LLM(Large Language Models)の急速な進歩は、評価方法論の進化に対する緊急の必要性を浮き彫りにしている。しばしば静的な従来のベンチマークでは、絶えず変化する情報ランドスケープをキャプチャできない。本研究では,過去,現在,未来に関連するテキストを理解し,予測し,生成する能力を含む時間的一般化について検討する。
論文参考訳（メタデータ） (2024-05-14T09:31:31Z)
Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。 Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文参考訳（メタデータ） (2023-10-03T01:31:25Z)
Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating Generalization Capacity of Language Models [18.874880342410876]
本稿では、時間的推測に焦点を当てた日本のベンチマークであるJampを紹介する。我々のデータセットには時間的推論パターンが含まれており、きめ細かい分析を行うことができます。時制フラグメントに基づいてデータセットを分割することにより,単言語/多言語LMの一般化能力を評価する。
論文参考訳（メタデータ） (2023-06-19T07:00:14Z)
MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。 WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文参考訳（メタデータ） (2022-12-16T17:36:23Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)
Entity Cloze By Date: What LMs Know About Unseen Entities [79.34707800653597]
言語モデル(LM)は通常、大規模なコーパスで一度訓練され、更新されずに数年間使用される。本研究では,LMの事前学習時に存在しなかった新しいエンティティについて,LMがどのような推論ができるのかを解析する枠組みを提案する。本論文は,その発祥日によって索引付けされたエンティティのデータセットを,英語のウィキペディア記事と組み合わせて作成し,各エンティティに関する文章を検索する。
論文参考訳（メタデータ） (2022-05-05T17:59:31Z)
A Closer Look at Debiased Temporal Sentence Grounding in Videos: Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文参考訳（メタデータ） (2022-03-10T08:58:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。