論文の概要: TiEBe: Tracking Language Model Recall of Notable Worldwide Events Through Time
- arxiv url: http://arxiv.org/abs/2501.07482v2
- Date: Tue, 20 May 2025 17:09:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:51.661136
- Title: TiEBe: Tracking Language Model Recall of Notable Worldwide Events Through Time
- Title(参考訳): TiEBe: 注目に値する世界規模のイベントを時間を通してリコールする言語モデル
- Authors: Thales Sales Almeida, Giovana Kerche Bonás, João Guilherme Alves Santos, Hugo Abonizio, Rodrigo Nogueira,
- Abstract要約: グローバルなイベントと地域的なイベントを中心に,23,000以上の質問応答ペアからなるデータセットであるTiEBeを提示する。
これらのイベントは、LLMのグローバルおよび地域開発に対する理解を評価するためのベンチマークを構築するために使用される。
以上の結果から,よりバランスの取れたグローバル表現の必要性を強調した。
- 参考スコア(独自算出の注目度): 9.745912505259312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the knowledge landscape evolves and large language models (LLMs) become increasingly widespread, there is a growing need to keep these models updated with current events. While existing benchmarks assess general factual recall, few studies explore how LLMs retain knowledge over time or across different regions. To address these gaps, we present the Timely Events Benchmark (TiEBe), a dataset of over 23,000 question-answer pairs centered on notable global and regional events, spanning more than 10 years of events, 23 regions, and 13 languages. TiEBe leverages structured retrospective data from Wikipedia to identify notable events through time. These events are then used to construct a benchmark to evaluate LLMs' understanding of global and regional developments, grounded in factual evidence beyond Wikipedia itself. Our results reveal significant geographic disparities in factual recall, emphasizing the need for more balanced global representation in LLM training. We also observe a Pearson correlation of more than 0.7 between models' performance in TiEBe and various countries' socioeconomic indicators, such as HDI. In addition, we examine the impact of language on factual recall by posing questions in the native language of the region where each event occurred, uncovering substantial performance gaps for low-resource languages.
- Abstract(参考訳): ナレッジランドスケープが発展し、大規模言語モデル(LLM)が普及するにつれて、これらのモデルを現在のイベントに合わせて更新し続ける必要性が高まっている。
既存のベンチマークでは、一般的な事実のリコールを評価するが、LLMが時間や地域によってどのように知識を保持するかを調査する研究はほとんどない。
これらのギャップに対処するために、TyEBe(Timely Events Benchmark)という、グローバルイベントと地域イベントを中心とした、23,000以上の質問応答ペアのデータセットを紹介します。
TiEBeはウィキペディアの構造化された振り返りデータを利用して、時間を通して注目すべき出来事を特定する。
これらの出来事は、ウィキペディア自身以外の事実的証拠に基づいて、LLMのグローバルおよび地域的発展に対する理解を評価するためのベンチマークを構築するために使用される。
LLMトレーニングにおいて,よりバランスの取れたグローバル表現の必要性を強調した。
また,TiEBeにおけるモデルの性能と,HDIなどの各国の社会経済指標とのPearson相関を0.7以上観測した。
さらに,各事象が発生した地域の母国語に疑問を呈し,低リソース言語の性能格差を明らかにすることで,事実的リコールに対する言語の影響を検討する。
関連論文リスト
- Gradient Localization Improves Lifelong Pretraining of Language Models [32.29298047707914]
WebスケールのテキストコーパスでトレーニングされたLarge Language Models (LLM) は、それらのパラメータの世界の知識をキャプチャする。
本研究では,時間的に敏感なエンティティに関する2種類の知識について検討し,それぞれのタイプがLLM内の異なるパラメータ集合に局所化されていることを示す。
論文 参考訳(メタデータ) (2024-11-07T05:43:50Z) - ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains [19.428141279030527]
大規模言語モデル(LLM)は、私たちの生活の多くの側面に大きな変化をもたらしました。
既存のアプローチは、知識の時間的適応性に対処するのに不足している。
LLMの非パラメトリック時系列知識を評価するための新しいサンプリングベースフレームワークであるChroKnowledgeを紹介する。
論文 参考訳(メタデータ) (2024-10-13T15:08:49Z) - GrowOVER: How Can LLMs Adapt to Growing Real-World Knowledge? [36.987716816134984]
本稿では,更新の連続サイクルを経たGrowOVER-QAとGrowOVER-Dialogue,動的オープンドメインQA,ダイアログベンチマークを提案する。
本研究は,検索強化言語モデル(RaLM)が,まだトレーニングされていない知識や最近更新されていない知識に悩まされていることを示唆している。
本稿では,新たな検索対話型言語モデルフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-09T01:16:04Z) - Towards Incremental Learning in Large Language Models: A Critical Review [0.0]
このレビューは、大規模言語モデルにおける漸進的学習の包括的分析を提供する。
それは、継続的な学習、メタラーニング、パラメータ効率の学習、およびエキスパートの混合学習を含む、最先端の漸進的な学習パラダイムを合成する。
重要な発見は、これらのアプローチの多くはコアモデルを更新せず、リアルタイムでインクリメンタルに更新するものではないことである。
論文 参考訳(メタデータ) (2024-04-28T20:44:53Z) - Remember This Event That Year? Assessing Temporal Information and Reasoning in Large Language Models [1.472789264981363]
大規模言語モデル(LLM)はますます普及しているが、時間的情報を保持する能力と推論能力は依然として限られている。
本研究は,紀元前1万年から2100年の間,新しい数値時間データセットである textbfTempUN に関する12の最先端モデルを用いて実験を行った。
論文 参考訳(メタデータ) (2024-02-19T09:43:03Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Visual Self-paced Iterative Learning for Unsupervised Temporal Action Localization [50.48350210022611]
本稿では,クラスタリングとローカライズトレーニングを同時に行うための,自己ペースの反復学習モデルを提案する。
我々は,2つの段階的なインスタンス学習戦略を設計し,ビデオ擬似ラベルの信頼性を確保する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Online Continual Knowledge Learning for Language Models [3.654507524092343]
大規模言語モデル(LLM)は、幅広い世界の知識のリポジトリとして機能し、質問応答やファクトチェックなどのタスクを実行できる。
オンライン連続知識学習(OCKL)は,実時間制約下での世界知識の動的性質を管理することを目的としている。
論文 参考訳(メタデータ) (2023-11-16T07:31:03Z) - Carpe Diem: On the Evaluation of World Knowledge in Lifelong Language Models [74.81091933317882]
進化するウィキペディアデータベース上でのLMのトレーニングと評価を目的とした,時間的に進化する質問応答ベンチマークであるEvolvingQAを紹介する。
既存の継続的な学習ベースラインが、時代遅れの知識の更新と削除に悩まされていることを明らかにする。
本研究の目的は,実世界の情報の動的性質をモデル化することであり,言語モデルの進化適応性を忠実に評価することである。
論文 参考訳(メタデータ) (2023-11-14T12:12:02Z) - ALCUNA: Large Language Models Meet New Knowledge [48.30457202012987]
本稿では,既存のエンティティ属性と関係を変化させることで,新たな知識を生み出すアプローチを提案する。
KnowGenでは、知識理解、分化、関連性におけるLLMの能力を評価するために、ALCUNAというベンチマークを導入する。
また、エンティティの類似性がモデルにおけるエンティティ知識の理解とコンテキストエンティティの影響に与える影響についても検討する。
論文 参考訳(メタデータ) (2023-10-23T11:40:05Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。