論文の概要: Evaluating LLMs at Evaluating Temporal Generalization
- arxiv url: http://arxiv.org/abs/2405.08460v1
- Date: Tue, 14 May 2024 09:31:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 14:38:24.823561
- Title: Evaluating LLMs at Evaluating Temporal Generalization
- Title(参考訳): 時間的一般化評価におけるLCMの評価
- Authors: Chenghao Zhu, Nuo Chen, Yufei Gao, Benyou Wang,
- Abstract要約: 従来のベンチマークでは、絶えず変化する情報ランドスケープを捉えられません。
時間的一般化とバイアスの観点から,現在の大規模言語モデルについて検討する。
本稿では,最新の実世界の予測予測から動的にベンチマークを生成するための評価フレームワークFreshbenchを提案する。
- 参考スコア(独自算出の注目度): 29.427823924712825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of Large Language Models (LLMs) highlights the urgent need for evolving evaluation methodologies that keep pace with improvements in language comprehension and information processing. However, traditional benchmarks, which are often static, fail to capture the continually changing information landscape, leading to a disparity between the perceived and actual effectiveness of LLMs in ever-changing real-world scenarios. Furthermore, these benchmarks do not adequately measure the models' capabilities over a broader temporal range or their adaptability over time. We examine current LLMs in terms of temporal generalization and bias, revealing that various temporal biases emerge in both language likelihood and prognostic prediction. This serves as a caution for LLM practitioners to pay closer attention to mitigating temporal biases. Also, we propose an evaluation framework Freshbench for dynamically generating benchmarks from the most recent real-world prognostication prediction. Our code is available at https://github.com/FreedomIntelligence/FreshBench. The dataset will be released soon.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩は、言語理解と情報処理の改善に追従する評価方法論の進化に対する緊急の必要性を浮き彫りにしている。
しかし、しばしば静的な従来のベンチマークでは、絶えず変化する情報ランドスケープをキャプチャできないため、現実のシナリオにおけるLLMの認識と実際の効果の相違が生じる。
さらに、これらのベンチマークは、より広い時間範囲でモデルの能力や、時間とともに適応性を測定することができない。
時間的一般化とバイアスの観点から現在のLCMについて検討し、言語的可能性と予後予測の両方に様々な時間的バイアスが出現することを明らかにする。
このことは、LLM実践者が時間的偏見を緩和するためにより注意を払うための警告となる。
また,最新の実世界の予測予測からベンチマークを動的に生成する評価フレームワークであるFreshbenchを提案する。
私たちのコードはhttps://github.com/FreedomIntelligence/FreshBench.comで利用可能です。
データセットはまもなくリリースされる予定だ。
関連論文リスト
- Are LLMs Prescient? A Continuous Evaluation using Daily News as the Oracle [13.192628306219248]
本稿では,大規模言語モデルの時間的一般化能力を評価するための連続評価手法として,将来の事象予測を提案する。
私たちのベンチマークであるDaily Oracleは、毎日のニュースから質問と回答のペアを自動的に生成します。
論文 参考訳(メタデータ) (2024-11-13T04:20:20Z) - Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time [0.0]
我々は、時間に敏感な事実を扱う大規模言語モデルの能力を厳格にテストするために設計された新しいデータセットを導入する。
我々のベンチマークは、LLMが自身の知識を正しい時間文脈とどのように一致させるかを測定するための体系的な方法を提供する。
論文 参考訳(メタデータ) (2024-09-20T08:57:20Z) - A Comprehensive Evaluation of Large Language Models on Temporal Event Forecasting [45.0261082985087]
時間的事象予測のための大規模言語モデル(LLM)を総合的に評価する。
LLMの入力に生テキストを直接統合しても、ゼロショット補間性能は向上しないことがわかった。
対照的に、特定の複雑なイベントや微調整LDMに生テキストを組み込むことで、性能が大幅に向上する。
論文 参考訳(メタデータ) (2024-07-16T11:58:54Z) - Robustness of LLMs to Perturbations in Text [2.0670689746336]
大規模言語モデル(LLM)は素晴らしいパフォーマンスを示していますが、現実のデータでは避けられないノイズを処理できますか?
この研究は、LLMのテキストのモルフォロジー変化に対するレジリエンスを調査することによって、この重要な問題に取り組む。
以上の結果から, LLM は, 一般の信念とは対照的に, 文中での騒々しい摂動に対して静かであることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-12T04:50:17Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。