論文の概要: TiEBe: A Benchmark for Assessing the Current Knowledge of Large Language Models
- arxiv url: http://arxiv.org/abs/2501.07482v1
- Date: Mon, 13 Jan 2025 16:58:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:28:55.796355
- Title: TiEBe: A Benchmark for Assessing the Current Knowledge of Large Language Models
- Title(参考訳): TiEBe: 大規模言語モデルの現在の知識を評価するベンチマーク
- Authors: Thales Sales Almeida, Giovana Kerche Bonás, João Guilherme Alves Santos, Hugo Abonizio, Rodrigo Nogueira,
- Abstract要約: Timely Events Benchmark (TiEBe)は,グローバルおよび地域的に重要なイベントに焦点を当てた,11,000以上の質問応答ペアを含むデータセットである。
我々のベンチマークでは,LLMは,よりバランスの取れたグローバルな知識表現の必要性を強調し,現実的なリコールにおいて相当な地理的格差を示すことを示した。
TiEBeは継続的な学習戦略を評価するツールとして機能し、過去の知識を忘れずに新しい情報を取得するモデルの能力に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 9.745912505259312
- License:
- Abstract: In a rapidly evolving knowledge landscape and the increasing adoption of large language models, a need has emerged to keep these models continuously updated with current events. While existing benchmarks evaluate general factual recall, they often overlook two critical aspects: the ability of models to integrate evolving knowledge through continual learning and the significant regional disparities in their performance. To address these gaps, we introduce the Timely Events Benchmark (TiEBe), a dataset containing over 11,000 question-answer pairs focused on globally and regionally significant events. TiEBe leverages structured retrospective data from Wikipedia, enabling continuous updates to assess LLMs' knowledge of evolving global affairs and their understanding of events across different regions. Our benchmark demonstrates that LLMs exhibit substantial geographic disparities in factual recall, emphasizing the need for more balanced global knowledge representation. Furthermore, TiEBe serves as a tool for evaluating continual learning strategies, providing insights into models' ability to acquire new information without forgetting past knowledge.
- Abstract(参考訳): 急速に進化する知識ランドスケープと、大規模言語モデルの採用の増加により、これらのモデルを現在のイベントと継続的に更新し続ける必要性が浮上した。
既存のベンチマークでは、一般的な事実的リコールを評価する一方で、モデルが継続的な学習を通じて進化する知識を統合する能力と、そのパフォーマンスにおける重要な地域格差という、2つの重要な側面を見落としていることが多い。
これらのギャップに対処するために、グローバルおよび地域的に重要なイベントに焦点を当てた11,000以上の質問応答ペアを含むデータセットであるTimely Events Benchmark(TiEBe)を紹介した。
TiEBeはウィキペディアの構造化された振り返りデータを活用し、世界情勢の進化に関するLLMの知識と異なる地域における出来事の理解を継続的に更新することができる。
我々のベンチマークでは,LLMは,よりバランスの取れたグローバルな知識表現の必要性を強調し,現実的なリコールにおいて相当な地理的格差を示すことを示した。
さらに、TiEBeは継続的な学習戦略を評価するツールとして機能し、過去の知識を忘れずに新しい情報を取得するモデルの能力に関する洞察を提供する。
関連論文リスト
- Gradient Localization Improves Lifelong Pretraining of Language Models [32.29298047707914]
WebスケールのテキストコーパスでトレーニングされたLarge Language Models (LLM) は、それらのパラメータの世界の知識をキャプチャする。
本研究では,時間的に敏感なエンティティに関する2種類の知識について検討し,それぞれのタイプがLLM内の異なるパラメータ集合に局所化されていることを示す。
論文 参考訳(メタデータ) (2024-11-07T05:43:50Z) - GrowOVER: How Can LLMs Adapt to Growing Real-World Knowledge? [36.987716816134984]
本稿では,更新の連続サイクルを経たGrowOVER-QAとGrowOVER-Dialogue,動的オープンドメインQA,ダイアログベンチマークを提案する。
本研究は,検索強化言語モデル(RaLM)が,まだトレーニングされていない知識や最近更新されていない知識に悩まされていることを示唆している。
本稿では,新たな検索対話型言語モデルフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-09T01:16:04Z) - Towards Incremental Learning in Large Language Models: A Critical Review [0.0]
このレビューは、大規模言語モデルにおける漸進的学習の包括的分析を提供する。
それは、継続的な学習、メタラーニング、パラメータ効率の学習、およびエキスパートの混合学習を含む、最先端の漸進的な学習パラダイムを合成する。
重要な発見は、これらのアプローチの多くはコアモデルを更新せず、リアルタイムでインクリメンタルに更新するものではないことである。
論文 参考訳(メタデータ) (2024-04-28T20:44:53Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Remember This Event That Year? Assessing Temporal Information and Reasoning in Large Language Models [1.472789264981363]
大規模言語モデル(LLM)はますます普及しているが、時間的情報を保持する能力と推論能力は依然として限られている。
本研究は,紀元前1万年から2100年の間,新しい数値時間データセットである textbfTempUN に関する12の最先端モデルを用いて実験を行った。
論文 参考訳(メタデータ) (2024-02-19T09:43:03Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Online Continual Knowledge Learning for Language Models [3.654507524092343]
大規模言語モデル(LLM)は、幅広い世界の知識のリポジトリとして機能し、質問応答やファクトチェックなどのタスクを実行できる。
オンライン連続知識学習(OCKL)は,実時間制約下での世界知識の動的性質を管理することを目的としている。
論文 参考訳(メタデータ) (2023-11-16T07:31:03Z) - Carpe Diem: On the Evaluation of World Knowledge in Lifelong Language Models [74.81091933317882]
進化するウィキペディアデータベース上でのLMのトレーニングと評価を目的とした,時間的に進化する質問応答ベンチマークであるEvolvingQAを紹介する。
既存の継続的な学習ベースラインが、時代遅れの知識の更新と削除に悩まされていることを明らかにする。
本研究の目的は,実世界の情報の動的性質をモデル化することであり,言語モデルの進化適応性を忠実に評価することである。
論文 参考訳(メタデータ) (2023-11-14T12:12:02Z) - ALCUNA: Large Language Models Meet New Knowledge [48.30457202012987]
本稿では,既存のエンティティ属性と関係を変化させることで,新たな知識を生み出すアプローチを提案する。
KnowGenでは、知識理解、分化、関連性におけるLLMの能力を評価するために、ALCUNAというベンチマークを導入する。
また、エンティティの類似性がモデルにおけるエンティティ知識の理解とコンテキストエンティティの影響に与える影響についても検討する。
論文 参考訳(メタデータ) (2023-10-23T11:40:05Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。