Fugu-MT 論文翻訳(概要): Evaluating LLMs at Evaluating Temporal Generalization

論文の概要: Evaluating LLMs at Evaluating Temporal Generalization

arxiv url: http://arxiv.org/abs/2405.08460v1
Date: Tue, 14 May 2024 09:31:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-15 14:38:24.823561
Title: Evaluating LLMs at Evaluating Temporal Generalization
Title（参考訳）: 時間的一般化評価におけるLCMの評価
Authors: Chenghao Zhu, Nuo Chen, Yufei Gao, Benyou Wang,
Abstract要約: 従来のベンチマークでは、絶えず変化する情報ランドスケープを捉えられません。時間的一般化とバイアスの観点から,現在の大規模言語モデルについて検討する。本稿では,最新の実世界の予測予測から動的にベンチマークを生成するための評価フレームワークFreshbenchを提案する。
参考スコア（独自算出の注目度）: 29.427823924712825
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid advancement of Large Language Models (LLMs) highlights the urgent need for evolving evaluation methodologies that keep pace with improvements in language comprehension and information processing. However, traditional benchmarks, which are often static, fail to capture the continually changing information landscape, leading to a disparity between the perceived and actual effectiveness of LLMs in ever-changing real-world scenarios. Furthermore, these benchmarks do not adequately measure the models' capabilities over a broader temporal range or their adaptability over time. We examine current LLMs in terms of temporal generalization and bias, revealing that various temporal biases emerge in both language likelihood and prognostic prediction. This serves as a caution for LLM practitioners to pay closer attention to mitigating temporal biases. Also, we propose an evaluation framework Freshbench for dynamically generating benchmarks from the most recent real-world prognostication prediction. Our code is available at https://github.com/FreedomIntelligence/FreshBench. The dataset will be released soon.
Abstract（参考訳）: LLM(Large Language Models)の急速な進歩は、言語理解と情報処理の改善に追従する評価方法論の進化に対する緊急の必要性を浮き彫りにしている。しかし、しばしば静的な従来のベンチマークでは、絶えず変化する情報ランドスケープをキャプチャできないため、現実のシナリオにおけるLLMの認識と実際の効果の相違が生じる。さらに、これらのベンチマークは、より広い時間範囲でモデルの能力や、時間とともに適応性を測定することができない。時間的一般化とバイアスの観点から現在のLCMについて検討し、言語的可能性と予後予測の両方に様々な時間的バイアスが出現することを明らかにする。このことは、LLM実践者が時間的偏見を緩和するためにより注意を払うための警告となる。また,最新の実世界の予測予測からベンチマークを動的に生成する評価フレームワークであるFreshbenchを提案する。私たちのコードはhttps://github.com/FreedomIntelligence/FreshBench.comで利用可能です。データセットはまもなくリリースされる予定だ。

関連論文リスト

ExAnte: A Benchmark for Ex-Ante Inference in Large Language Models [12.948099229475265]
大型言語モデル (LLM) は、元Antの推論において重大な課題に直面している。時間的カットオフを強制する明示的なプロンプトであっても、LLMは指定されたカットオフを超えた事象の内在的な知識に影響された出力をしばしば生成する。本稿では、このような時間的制約に固執しながら、LCMの推論能力を評価するための新しいタスクとベンチマークを提案する。
論文参考訳（メタデータ） (2025-05-26T05:39:57Z)
Investigating and Enhancing the Robustness of Large Multimodal Models Against Temporal Inconsistency [59.05753942719665]
本稿では,モデルのロバスト性を評価するために,時間的ロバスト性ベンチマーク(TemRobBench)を提案する。 16のLMMを評価した結果,従来の知識やテキストの文脈に頼りすぎていることが判明した。我々はパノラマ直接選好最適化(PanoDPO)を設計し、LMMが視覚的特徴と言語的特徴の両方を同時に取り入れることを奨励する。
論文参考訳（メタデータ） (2025-05-20T14:18:56Z)
Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [69.68265487134686]
Video SimpleQAは、LVLMの事実性評価に適した最初の総合的なベンチマークである。私たちの研究は、以下の重要な機能を通じて、既存のビデオベンチマークと区別します。答えは、簡潔なフォーマットで曖昧で決定的に正しいものとして作成されます。
論文参考訳（メタデータ） (2025-03-24T17:46:09Z)
Are LLMs Prescient? A Continuous Evaluation using Daily News as the Oracle [13.192628306219248]
本稿では,大規模言語モデルの時間的一般化能力を評価するための連続評価手法として,将来の事象予測を提案する。私たちのベンチマークであるDaily Oracleは、毎日のニュースから質問と回答のペアを自動的に生成します。
論文参考訳（メタデータ） (2024-11-13T04:20:20Z)
Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。 ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文参考訳（メタデータ） (2024-10-31T03:42:17Z)
Will LLMs Replace the Encoder-Only Models in Temporal Relation Classification? [2.1861408994125253]
大規模言語モデル(LLM)は、最近、時間的推論タスクで有望なパフォーマンスを示した。最近の研究は、閉ソースモデルのみの時間的関係を検出するためにLLMの性能を検証している。
論文参考訳（メタデータ） (2024-10-14T13:10:45Z)
Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time [0.0]
我々は、時間に敏感な事実を扱う大規模言語モデルの能力を厳格にテストするために設計された新しいデータセットを導入する。我々のベンチマークは、LLMが自身の知識を正しい時間文脈とどのように一致させるかを測定するための体系的な方法を提供する。
論文参考訳（メタデータ） (2024-09-20T08:57:20Z)
A Comprehensive Evaluation of Large Language Models on Temporal Event Forecasting [45.0261082985087]
時間的事象予測のための大規模言語モデル(LLM)を総合的に評価する。 LLMの入力に生テキストを直接統合しても、ゼロショット補間性能は向上しないことがわかった。対照的に、特定の複雑なイベントや微調整LDMに生テキストを組み込むことで、性能が大幅に向上する。
論文参考訳（メタデータ） (2024-07-16T11:58:54Z)
Robustness of LLMs to Perturbations in Text [2.0670689746336]
大規模言語モデル(LLM)は素晴らしいパフォーマンスを示していますが、現実のデータでは避けられないノイズを処理できますか? この研究は、LLMのテキストのモルフォロジー変化に対するレジリエンスを調査することによって、この重要な問題に取り組む。以上の結果から, LLM は, 一般の信念とは対照的に, 文中での騒々しい摂動に対して静かであることが明らかとなった。
論文参考訳（メタデータ） (2024-07-12T04:50:17Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文参考訳（メタデータ） (2024-02-18T03:10:39Z)
Temporal Blind Spots in Large Language Models [20.631107338678234]
大規模言語モデル(LLM)は、様々な自然言語処理タスクを実行する非並列性のため、最近注目されている。本研究では,時間的理解を必要とするタスクに対して,汎用LLMの基本的な限界について検討する。
論文参考訳（メタデータ） (2024-01-22T16:20:14Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文参考訳（メタデータ） (2023-10-01T17:37:31Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
OpenSTL: A Comprehensive Benchmark of Spatio-Temporal Predictive Learning [67.07363529640784]
提案するOpenSTLは,一般的なアプローチを再帰的モデルと再帰的モデルに分類する。我々は, 合成移動物体軌道, 人間の動き, 運転シーン, 交通流, 天気予報など, さまざまな領域にわたるデータセットの標準評価を行う。リカレントフリーモデルは、リカレントモデルよりも効率と性能のバランスが良いことがわかった。
論文参考訳（メタデータ） (2023-06-20T03:02:14Z)
Can LMs Generalize to Future Data? An Empirical Analysis on Text Summarization [50.20034493626049]
最近の学習済み言語モデル(PLM)は、既存の抽象的な要約データセットにおいて有望な結果をもたらす。既存の要約ベンチマークは、標準の事前学習コーパスと微調整データセットと時間的に重複する。要約モデルに格納されたパラメトリック知識は、将来のデータに対する生成した要約の忠実度に大きく影響することを示す。
論文参考訳（メタデータ） (2023-05-03T08:08:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。