論文の概要: NewTerm: Benchmarking Real-Time New Terms for Large Language Models with Annual Updates
- arxiv url: http://arxiv.org/abs/2410.20814v1
- Date: Mon, 28 Oct 2024 08:02:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:14:29.686328
- Title: NewTerm: Benchmarking Real-Time New Terms for Large Language Models with Annual Updates
- Title(参考訳): 年次更新を伴う大規模言語モデルのリアルタイム新用語のベンチマーク
- Authors: Hexuan Deng, Wenxiang Jiao, Xuebo Liu, Min Zhang, Zhaopeng Tu,
- Abstract要約: 大規模言語モデル(LLM)は、開発プロセスにおける知識の遮断により、リアルタイム情報に苦しむ。
本稿では,新しい用語をリアルタイムに評価するための適応型ベンチマークであるNewTermを提案する。
- 参考スコア(独自算出の注目度): 61.492590008258986
- License:
- Abstract: Despite their remarkable abilities in various tasks, large language models (LLMs) still struggle with real-time information (e.g., new facts and terms) due to the knowledge cutoff in their development process. However, existing benchmarks focus on outdated content and limited fields, facing difficulties in real-time updating and leaving new terms unexplored. To address this problem, we propose an adaptive benchmark, NewTerm, for real-time evaluation of new terms. We design a highly automated construction method to ensure high-quality benchmark construction with minimal human effort, allowing flexible updates for real-time information. Empirical results on various LLMs demonstrate over 20% performance reduction caused by new terms. Additionally, while updates to the knowledge cutoff of LLMs can cover some of the new terms, they are unable to generalize to more distant new terms. We also analyze which types of terms are more challenging and why LLMs struggle with new terms, paving the way for future research. Finally, we construct NewTerm 2022 and 2023 to evaluate the new terms updated each year and will continue updating annually. The benchmark and codes can be found at https://github.com/hexuandeng/NewTerm.
- Abstract(参考訳): 様々なタスクにおいて顕著な能力にもかかわらず、大規模言語モデル(LLM)は、開発プロセスにおける知識の切り離しのため、リアルタイム情報(例えば、新しい事実や用語)に苦しむ。
しかし、既存のベンチマークでは時代遅れのコンテンツと制限されたフィールドに焦点が当てられており、リアルタイム更新や新しい用語の未探索が困難に直面している。
この問題に対処するために,新しい用語をリアルタイムに評価するための適応型ベンチマークであるNewTermを提案する。
我々は、人間の努力を最小限に抑えて高品質なベンチマーク構築を確保するために、高度に自動化された構築法を設計し、リアルタイム情報の柔軟な更新を可能にする。
各種LLMにおける実験結果から, 新たな用語による性能低下が20%以上みられた。
加えて、LLMの知識切断の更新は、いくつかの新しい用語をカバーできるが、より遠い新しい用語に一般化することはできない。
また、どの用語がより難しいのか、なぜLLMが新しい用語に苦しむのかを分析し、将来の研究への道を開く。
最後に、毎年更新される新用語を評価するために、2022年と2023年を新たに構築し、毎年更新を続けます。
ベンチマークとコードはhttps://github.com/hexuandeng/NewTermにある。
関連論文リスト
- CodeUpdateArena: Benchmarking Knowledge Editing on API Updates [77.81663273436375]
コードドメインの知識編集のためのベンチマークであるCodeUpdateArenaを提示する。
私たちのベンチマークのインスタンスは、プログラム合成例と組み合わせた合成API関数のアップデートで構成されています。
ベンチマークでは、7つのPythonパッケージから54の関数へ、さまざまなタイプの更新をカバーしています。
論文 参考訳(メタデータ) (2024-07-08T17:55:04Z) - Is Your LLM Outdated? Evaluating LLMs at Temporal Generalization [37.58752947129519]
LLM(Large Language Models)の急速な進歩は、評価方法論の進化に対する緊急の必要性を浮き彫りにしている。
しばしば静的な従来のベンチマークでは、絶えず変化する情報ランドスケープをキャプチャできない。
本研究では,過去,現在,未来に関連するテキストを理解し,予測し,生成する能力を含む時間的一般化について検討する。
論文 参考訳(メタデータ) (2024-05-14T09:31:31Z) - Editing Conceptual Knowledge for Large Language Models [65.38231526537476]
本稿では,Large Language Models(LLMs)における概念知識の編集の先駆者となる。
本研究では,新しいベンチマークデータセットConceptEditを構築し,評価のための新しいメトリクスセットを確立する。
実験の結果,既存の編集手法は概念レベルの定義をある程度効率的に修正できるが,関連する瞬間的知識を歪ませる可能性も示された。
論文 参考訳(メタデータ) (2024-03-10T16:57:10Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Automatically Recommend Code Updates: Are We There Yet? [14.997510035210842]
本稿では,コード更新を自動的に推奨する最先端のCodeLMを初めて評価する。
その結果,CodeLMは時間的情報を無視した設定では良好に動作しているが,より現実的な時間的シナリオでは困難であることがわかった。
本研究は,実世界のコード更新レコメンデーションにおいて,CodeLMの認識と実際の有効性の間に有意なギャップがあることを明らかにする。
論文 参考訳(メタデータ) (2022-09-15T05:07:25Z) - Entity Cloze By Date: What LMs Know About Unseen Entities [79.34707800653597]
言語モデル(LM)は通常、大規模なコーパスで一度訓練され、更新されずに数年間使用される。
本研究では,LMの事前学習時に存在しなかった新しいエンティティについて,LMがどのような推論ができるのかを解析する枠組みを提案する。
本論文は,その発祥日によって索引付けされたエンティティのデータセットを,英語のウィキペディア記事と組み合わせて作成し,各エンティティに関する文章を検索する。
論文 参考訳(メタデータ) (2022-05-05T17:59:31Z) - TemporalWiki: A Lifelong Benchmark for Training and Evaluating
Ever-Evolving Language Models [31.900232508466928]
TemporalWikiは、絶え間なく進化する言語モデル(LM)の生涯ベンチマークである
研究者は、LMの以前の知識を定期的に追跡し、各時点の更新/更新知識を取得することができる。
連続的な学習手法による差分データ上でのLMのトレーニングは、ベンチマークのスナップショット全体の12倍の計算コストで、同様の、あるいはより複雑な処理を実現する。
論文 参考訳(メタデータ) (2022-04-29T16:40:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。