論文の概要: HelloFresh: LLM Evaluations on Streams of Real-World Human Editorial Actions across X Community Notes and Wikipedia edits
- arxiv url: http://arxiv.org/abs/2406.03428v1
- Date: Wed, 5 Jun 2024 16:25:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 17:02:29.856615
- Title: HelloFresh: LLM Evaluations on Streams of Real-World Human Editorial Actions across X Community Notes and Wikipedia edits
- Title(参考訳): HelloFresh: LLM Evaluations on Streams of Real-World Human Editorial Actions across X Community Notes and WikipediaEdits
- Authors: Tim Franzmeyer, Aleksandar Shtedritski, Samuel Albanie, Philip Torr, João F. Henriques, Jakob N. Foerster,
- Abstract要約: HelloFreshは、本質的に動機づけられた人間のラベルによって生成された実世界のデータの連続的なストリームに基づいている。
ウィキペディアページのX(元Twitter)コミュニティノートと編集の最近のイベントをカバーしている。
テストデータの汚染とベンチマークオーバーフィッティングのリスクを軽減します。
- 参考スコア(独自算出の注目度): 92.62157408704594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarks have been essential for driving progress in machine learning. A better understanding of LLM capabilities on real world tasks is vital for safe development. Designing adequate LLM benchmarks is challenging: Data from real-world tasks is hard to collect, public availability of static evaluation data results in test data contamination and benchmark overfitting, and periodically generating new evaluation data is tedious and may result in temporally inconsistent results. We introduce HelloFresh, based on continuous streams of real-world data generated by intrinsically motivated human labelers. It covers recent events from X (formerly Twitter) community notes and edits of Wikipedia pages, mitigating the risk of test data contamination and benchmark overfitting. Any X user can propose an X note to add additional context to a misleading post (formerly tweet); if the community classifies it as helpful, it is shown with the post. Similarly, Wikipedia relies on community-based consensus, allowing users to edit articles or revert edits made by other users. Verifying whether an X note is helpful or whether a Wikipedia edit should be accepted are hard tasks that require grounding by querying the web. We backtest state-of-the-art LLMs supplemented with simple web search access and find that HelloFresh yields a temporally consistent ranking. To enable continuous evaluation on HelloFresh, we host a public leaderboard and periodically updated evaluation data at https://tinyurl.com/hello-fresh-LLM.
- Abstract(参考訳): ベンチマークは機械学習の進歩を促進するのに不可欠である。
現実世界のタスクにおけるLLM機能をよりよく理解することは、安全な開発に不可欠である。
実世界のタスクからのデータ収集は困難であり、静的な評価データの公開はテストデータの汚染とベンチマークオーバーフィッティングをもたらし、定期的に新しい評価データを生成するのは面倒であり、時間的に一貫性のない結果をもたらす可能性がある。
我々は,本質的な動機付けを持つ人間ラベルによる実世界のデータの連続的ストリームに基づくHelloFreshを紹介する。
X(元Twitter)コミュニティのノートやウィキペディアページの編集による最近の出来事をカバーし、テストデータの汚染やベンチマーク過適合のリスクを軽減している。
どんなXユーザでも、誤解を招く投稿(以前のつぶやき)に追加のコンテキストを追加するXノートを提案できる。
同様に、ウィキペディアはコミュニティベースのコンセンサスに依存しており、ユーザーは記事の編集や他のユーザーによる編集を戻すことができる。
Xノートが役に立つか、ウィキペディアの編集が受け入れられるべきかどうかを検証することは、ウェブを照会することで基礎づけを必要とする難しい作業である。
我々は、シンプルなWeb検索アクセスで補足された最先端のLLMをバックテストし、HelloFreshが時間的に一貫したランキングをもたらすことを発見した。
HelloFreshの継続的な評価を可能にするため、パブリックなリーダーボードと定期的に更新された評価データをhttps://tinyurl.com/hello-fresh-LLM.comでホストします。
関連論文リスト
- Generating Unseen Code Tests In Infinitum [1.0674604700001968]
本稿では,プログラミングタスクやプログラミング言語にまたがって一般化するベンチマークのバリエーションを作成する手法を提案する。
我々は、Pythonでテキストからコードを生成するタスクに対して、textitauto-regressionと呼ばれる1つのベンチマークを実装した。
論文 参考訳(メタデータ) (2024-07-29T08:11:20Z) - STORYSUMM: Evaluating Faithfulness in Story Summarization [31.94902013480574]
本稿では,局所的な忠実度ラベルと誤り説明を含む短編を収録した新しいデータセットであるSTORYSUMMを紹介する。
このベンチマークは、あるメソッドが挑戦的な不整合を検出できるかどうかをテストする評価方法である。
論文 参考訳(メタデータ) (2024-07-09T02:06:30Z) - LiveBench: A Challenging, Contamination-Free LLM Benchmark [101.21578097087699]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。
我々は、多くの著名なクローズドソースモデルと、0.5Bから110Bまでの数十のオープンソースモデルを評価した。
質問は毎月追加され、更新されるので、時間とともに新しいタスクとより難しいバージョンのタスクをリリースします。
論文 参考訳(メタデータ) (2024-06-27T16:47:42Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - TemporalWiki: A Lifelong Benchmark for Training and Evaluating
Ever-Evolving Language Models [31.900232508466928]
TemporalWikiは、絶え間なく進化する言語モデル(LM)の生涯ベンチマークである
研究者は、LMの以前の知識を定期的に追跡し、各時点の更新/更新知識を取得することができる。
連続的な学習手法による差分データ上でのLMのトレーニングは、ベンチマークのスナップショット全体の12倍の計算コストで、同様の、あるいはより複雑な処理を実現する。
論文 参考訳(メタデータ) (2022-04-29T16:40:07Z) - Integrating Rankings into Quantized Scores in Peer Review [61.27794774537103]
ピアレビューでは、レビュアーは通常、論文のスコアを提供するように求められます。
この問題を軽減するため、カンファレンスはレビュアーにレビューした論文のランキングを付加するように求め始めている。
このランキング情報を使用するための標準的な手順はなく、エリアチェアは異なる方法でそれを使用することができる。
我々は、ランキング情報をスコアに組み込むために、原則化されたアプローチを取る。
論文 参考訳(メタデータ) (2022-04-05T19:39:13Z) - 'I Updated the <ref>': The Evolution of References in the English
Wikipedia and the Implications for Altmetrics [0.0]
われわれは、2019年6月までの英語ウィキペディアで使われたすべての参照(5500万以上)のデータセットを提示する。
ウィキペディアで参照を識別し、監視する新しい手法を適用したので、それぞれの参照に対して、関連するアクション(生成、修正、削除、再試行)に関するデータを提供できる。
論文 参考訳(メタデータ) (2020-10-06T23:26:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。