論文の概要: TiEBe: A Benchmark for Assessing the Current Knowledge of Large Language Models
- arxiv url: http://arxiv.org/abs/2501.07482v1
- Date: Mon, 13 Jan 2025 16:58:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 19:20:14.272404
- Title: TiEBe: A Benchmark for Assessing the Current Knowledge of Large Language Models
- Title(参考訳): TiEBe: 大規模言語モデルの現在の知識を評価するベンチマーク
- Authors: Thales Sales Almeida, Giovana Kerche Bonás, João Guilherme Alves Santos, Hugo Abonizio, Rodrigo Nogueira,
- Abstract要約: Timely Events Benchmark (TiEBe)は,グローバルおよび地域的に重要なイベントに焦点を当てた,11,000以上の質問応答ペアを含むデータセットである。
我々のベンチマークでは,LLMは,よりバランスの取れたグローバルな知識表現の必要性を強調し,現実的なリコールにおいて相当な地理的格差を示すことを示した。
TiEBeは継続的な学習戦略を評価するツールとして機能し、過去の知識を忘れずに新しい情報を取得するモデルの能力に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 9.745912505259312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In a rapidly evolving knowledge landscape and the increasing adoption of large language models, a need has emerged to keep these models continuously updated with current events. While existing benchmarks evaluate general factual recall, they often overlook two critical aspects: the ability of models to integrate evolving knowledge through continual learning and the significant regional disparities in their performance. To address these gaps, we introduce the Timely Events Benchmark (TiEBe), a dataset containing over 11,000 question-answer pairs focused on globally and regionally significant events. TiEBe leverages structured retrospective data from Wikipedia, enabling continuous updates to assess LLMs' knowledge of evolving global affairs and their understanding of events across different regions. Our benchmark demonstrates that LLMs exhibit substantial geographic disparities in factual recall, emphasizing the need for more balanced global knowledge representation. Furthermore, TiEBe serves as a tool for evaluating continual learning strategies, providing insights into models' ability to acquire new information without forgetting past knowledge.
- Abstract(参考訳): 急速に進化する知識ランドスケープと、大規模言語モデルの採用の増加により、これらのモデルを現在のイベントと継続的に更新し続ける必要性が浮上した。
既存のベンチマークでは、一般的な事実的リコールを評価する一方で、モデルが継続的な学習を通じて進化する知識を統合する能力と、そのパフォーマンスにおける重要な地域格差という、2つの重要な側面を見落としていることが多い。
これらのギャップに対処するために、グローバルおよび地域的に重要なイベントに焦点を当てた11,000以上の質問応答ペアを含むデータセットであるTimely Events Benchmark(TiEBe)を紹介した。
TiEBeはウィキペディアの構造化された振り返りデータを活用し、世界情勢の進化に関するLLMの知識と異なる地域における出来事の理解を継続的に更新することができる。
我々のベンチマークでは,LLMは,よりバランスの取れたグローバルな知識表現の必要性を強調し,現実的なリコールにおいて相当な地理的格差を示すことを示した。
さらに、TiEBeは継続的な学習戦略を評価するツールとして機能し、過去の知識を忘れずに新しい情報を取得するモデルの能力に関する洞察を提供する。
関連論文リスト
- The World According to LLMs: How Geographic Origin Influences LLMs' Entity Deduction Capabilities [12.46765303763981]
大きな言語モデル(LLM)は明示的なバイアスを軽減するために広範囲に調整されてきたが、事前学習データに根ざした暗黙のバイアスがしばしば現れる。
我々は、モデルが積極的に質問するときにどのように振る舞うかを研究する。
マルチターン推論タスクである20の質問ゲームは、この目的のために理想的なテストベッドとして機能する。
論文 参考訳(メタデータ) (2025-08-07T15:53:30Z) - Around the World in 24 Hours: Probing LLM Knowledge of Time and Place [18.17538075862074]
本稿では,言語モデルが時間と空間とともに共同で推論できる能力について,初めて評価する。
時間的および地理的知識の異なる組み合わせに対して、3つの異なるモデルファミリーの8つのオープンチャットモデルを評価する。
特定の地理的領域と性能の明確な相関関係は見つからない。
論文 参考訳(メタデータ) (2025-06-04T14:14:28Z) - Traveling Across Languages: Benchmarking Cross-Lingual Consistency in Multimodal LLMs [38.26693373272882]
KnowRecallとVisRecallの2つの新しいベンチマークを紹介します。
KnowRecallは15の言語における事実的知識の一貫性を測定するために設計された視覚的質問応答ベンチマークである。
VisRecallは、画像にアクセスすることなく、9つの言語でランドマークの外観を記述するようモデルに求めることで、ビジュアルメモリの一貫性を評価する。
論文 参考訳(メタデータ) (2025-05-21T03:43:37Z) - ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。
ExpliCa上で7つの商用およびオープンソース LLM をテストしました。
驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文 参考訳(メタデータ) (2025-02-21T14:23:14Z) - ChronoSense: Exploring Temporal Understanding in Large Language Models with Time Intervals of Events [0.20132569095596248]
我々はChronoSenseについて紹介する。ChronoSenseは大規模言語モデルの時間的理解を評価するための新しいベンチマークである。
このベンチマークを用いて7つのLLMの性能評価を行い, モデルがアレン関係, 対称関係であっても, 全く異なる扱いをすることを示した。
全体として、モデルの性能の低さは、LLMにおける時間的理解の改善の必要性を強調している。
論文 参考訳(メタデータ) (2025-01-06T14:27:41Z) - Gradient Localization Improves Lifelong Pretraining of Language Models [32.29298047707914]
WebスケールのテキストコーパスでトレーニングされたLarge Language Models (LLM) は、それらのパラメータの世界の知識をキャプチャする。
本研究では,時間的に敏感なエンティティに関する2種類の知識について検討し,それぞれのタイプがLLM内の異なるパラメータ集合に局所化されていることを示す。
論文 参考訳(メタデータ) (2024-11-07T05:43:50Z) - ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains [19.428141279030527]
大規模言語モデル(LLM)は、私たちの生活の多くの側面に大きな変化をもたらしました。
既存のアプローチは、知識の時間的適応性に対処するのに不足している。
LLMの非パラメトリック時系列知識を評価するための新しいサンプリングベースフレームワークであるChroKnowledgeを紹介する。
論文 参考訳(メタデータ) (2024-10-13T15:08:49Z) - Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time [0.0]
現実のシナリオでは、回答の正しさはしばしば時間的文脈に結びついている。
2018年から2024年にかけて8000以上のイベントにまたがる新しいフレームワークとデータセットを提示します。
私たちの仕事は、タイムアウェアな言語モデルを進めるための重要なステップを提供します。
論文 参考訳(メタデータ) (2024-09-20T08:57:20Z) - Can We Theoretically Quantify the Impacts of Local Updates on the Generalization Performance of Federated Learning? [50.03434441234569]
フェデレートラーニング(FL)は、直接データ共有を必要とせず、さまざまなサイトで機械学習モデルをトレーニングする効果により、大きな人気を集めている。
局所的な更新を伴うFLは通信効率のよい分散学習フレームワークであることが様々なアルゴリズムによって示されているが、局所的な更新によるFLの一般化性能は比較的低い。
論文 参考訳(メタデータ) (2024-09-05T19:00:18Z) - GrowOVER: How Can LLMs Adapt to Growing Real-World Knowledge? [36.987716816134984]
本稿では,更新の連続サイクルを経たGrowOVER-QAとGrowOVER-Dialogue,動的オープンドメインQA,ダイアログベンチマークを提案する。
本研究は,検索強化言語モデル(RaLM)が,まだトレーニングされていない知識や最近更新されていない知識に悩まされていることを示唆している。
本稿では,新たな検索対話型言語モデルフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-09T01:16:04Z) - Elements of World Knowledge (EWoK): A Cognition-Inspired Framework for Evaluating Basic World Knowledge in Language Models [51.891804790725686]
要素・オブ・ワールド・ナレッジ(Elements of World Knowledge, EWoK)は、言語モデルによる世界モデリングの基礎となる概念的知識の理解を評価するためのフレームワークである。
EWoK-core-1.0は世界11の知識領域をカバーする4,374項目のデータセットである。
すべてのテストされたモデルは人間よりもパフォーマンスが悪く、その結果はドメインによって大きく異なる。
論文 参考訳(メタデータ) (2024-05-15T17:19:42Z) - Towards Incremental Learning in Large Language Models: A Critical Review [0.0]
このレビューは、大規模言語モデルにおける漸進的学習の包括的分析を提供する。
それは、継続的な学習、メタラーニング、パラメータ効率の学習、およびエキスパートの混合学習を含む、最先端の漸進的な学習パラダイムを合成する。
重要な発見は、これらのアプローチの多くはコアモデルを更新せず、リアルタイムでインクリメンタルに更新するものではないことである。
論文 参考訳(メタデータ) (2024-04-28T20:44:53Z) - Remember This Event That Year? Assessing Temporal Information and Reasoning in Large Language Models [1.472789264981363]
大規模言語モデル(LLM)はますます普及しているが、時間的情報を保持する能力と推論能力は依然として限られている。
本研究は,紀元前1万年から2100年の間,新しい数値時間データセットである textbfTempUN に関する12の最先端モデルを用いて実験を行った。
論文 参考訳(メタデータ) (2024-02-19T09:43:03Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Visual Self-paced Iterative Learning for Unsupervised Temporal Action Localization [50.48350210022611]
本稿では,クラスタリングとローカライズトレーニングを同時に行うための,自己ペースの反復学習モデルを提案する。
我々は,2つの段階的なインスタンス学習戦略を設計し,ビデオ擬似ラベルの信頼性を確保する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Online Continual Knowledge Learning for Language Models [3.654507524092343]
大規模言語モデル(LLM)は、幅広い世界の知識のリポジトリとして機能し、質問応答やファクトチェックなどのタスクを実行できる。
オンライン連続知識学習(OCKL)は,実時間制約下での世界知識の動的性質を管理することを目的としている。
論文 参考訳(メタデータ) (2023-11-16T07:31:03Z) - Carpe Diem: On the Evaluation of World Knowledge in Lifelong Language Models [74.81091933317882]
進化するウィキペディアデータベース上でのLMのトレーニングと評価を目的とした,時間的に進化する質問応答ベンチマークであるEvolvingQAを紹介する。
既存の継続的な学習ベースラインが、時代遅れの知識の更新と削除に悩まされていることを明らかにする。
本研究の目的は,実世界の情報の動的性質をモデル化することであり,言語モデルの進化適応性を忠実に評価することである。
論文 参考訳(メタデータ) (2023-11-14T12:12:02Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - ALCUNA: Large Language Models Meet New Knowledge [48.30457202012987]
本稿では,既存のエンティティ属性と関係を変化させることで,新たな知識を生み出すアプローチを提案する。
KnowGenでは、知識理解、分化、関連性におけるLLMの能力を評価するために、ALCUNAというベンチマークを導入する。
また、エンティティの類似性がモデルにおけるエンティティ知識の理解とコンテキストエンティティの影響に与える影響についても検討する。
論文 参考訳(メタデータ) (2023-10-23T11:40:05Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。