論文の概要: Are LLMs Prescient? A Continuous Evaluation using Daily News as the Oracle
- arxiv url: http://arxiv.org/abs/2411.08324v1
- Date: Wed, 13 Nov 2024 04:20:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:12:07.551389
- Title: Are LLMs Prescient? A Continuous Evaluation using Daily News as the Oracle
- Title(参考訳): LLMは未熟か? デイリーニュースをOracleとして継続的に評価する
- Authors: Hui Dai, Ryan Teehan, Mengye Ren,
- Abstract要約: 本稿では,大規模言語モデルの時間的一般化能力を評価するための連続評価手法として,将来の事象予測を提案する。
私たちのベンチマークであるDaily Oracleは、毎日のニュースから質問と回答のペアを自動的に生成します。
- 参考スコア(独自算出の注目度): 13.192628306219248
- License:
- Abstract: Many existing evaluation benchmarks for Large Language Models (LLMs) quickly become outdated due to the emergence of new models and training data. These benchmarks also fall short in assessing how LLM performance changes over time, as they consist of static questions without a temporal dimension. To address these limitations, we propose using future event prediction as a continuous evaluation method to assess LLMs' temporal generalization and forecasting abilities. Our benchmark, Daily Oracle, automatically generates question-answer (QA) pairs from daily news, challenging LLMs to predict "future" event outcomes. Our findings reveal that as pre-training data becomes outdated, LLM performance degrades over time. While Retrieval Augmented Generation (RAG) has the potential to enhance prediction accuracy, the performance degradation pattern persists, highlighting the need for continuous model updates.
- Abstract(参考訳): LLM(Large Language Models)の既存の評価ベンチマークは、新しいモデルやトレーニングデータの出現により、すぐに時代遅れになる。
これらのベンチマークは、時間次元のない静的な質問からなるため、LLMのパフォーマンスが時間とともにどのように変化するかを評価するのにも不足している。
これらの制約に対処するため,LLMの時間的一般化と予測能力を評価するための連続評価手法として,将来の事象予測を提案する。
私たちのベンチマークであるDaily Oracleは、毎日のニュースから質問応答(QA)ペアを自動的に生成します。
その結果,事前学習データが時代遅れになるにつれて,LCMの性能は経時的に低下することがわかった。
Retrieval Augmented Generation (RAG)は予測精度を高める可能性があるが、パフォーマンス劣化パターンは継続し、継続的モデル更新の必要性を強調している。
関連論文リスト
- Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - A Comprehensive Evaluation of Large Language Models on Temporal Event Forecasting [45.0261082985087]
時間的事象予測のための大規模言語モデル(LLM)を総合的に評価する。
LLMの入力に生テキストを直接統合しても、ゼロショット補間性能は向上しないことがわかった。
対照的に、特定の複雑なイベントや微調整LDMに生テキストを組み込むことで、性能が大幅に向上する。
論文 参考訳(メタデータ) (2024-07-16T11:58:54Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Is Your LLM Outdated? Evaluating LLMs at Temporal Generalization [37.58752947129519]
LLM(Large Language Models)の急速な進歩は、評価方法論の進化に対する緊急の必要性を浮き彫りにしている。
しばしば静的な従来のベンチマークでは、絶えず変化する情報ランドスケープをキャプチャできない。
本研究では,過去,現在,未来に関連するテキストを理解し,予測し,生成する能力を含む時間的一般化について検討する。
論文 参考訳(メタデータ) (2024-05-14T09:31:31Z) - Time Series Forecasting with LLMs: Understanding and Enhancing Model Capabilities [46.02234423159257]
大規模言語モデル(LLM)は多くの分野に適用され、近年急速に発展してきた。
近年の研究では、大規模な言語モデルを、さらなる微調整を行なわずに、アンフェロショット時系列推論として扱っている。
本研究は,LLMが周期性に欠けるデータセットにおいて,明確なパターンや傾向を持つ時系列予測において良好に機能することを示す。
論文 参考訳(メタデータ) (2024-02-16T17:15:28Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Can LMs Generalize to Future Data? An Empirical Analysis on Text
Summarization [50.20034493626049]
最近の学習済み言語モデル(PLM)は、既存の抽象的な要約データセットにおいて有望な結果をもたらす。
既存の要約ベンチマークは、標準の事前学習コーパスと微調整データセットと時間的に重複する。
要約モデルに格納されたパラメトリック知識は、将来のデータに対する生成した要約の忠実度に大きく影響することを示す。
論文 参考訳(メタデータ) (2023-05-03T08:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。