論文の概要: BSBench: will your LLM find the largest prime number?
- arxiv url: http://arxiv.org/abs/2506.04535v1
- Date: Thu, 05 Jun 2025 00:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.474231
- Title: BSBench: will your LLM find the largest prime number?
- Title(参考訳): BSBench: LLMは最大の素数を見つけますか?
- Authors: K. O. T. Erziev,
- Abstract要約: 合理的な答えのない質問に対するLSMのベンチマークは、聞こえるほど愚かなものではない。
このようなテストを可能にするベンチマークと,既存のデータセットを修正可能なメソッドを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose that benchmarking LLMs on questions which have no reasonable answer actually isn't as silly as it sounds. We also present a benchmark that allows such testing and a method to modify the existing datasets, and discover that existing models demonstrate a performance far from the perfect on such questions. Our code and data artifacts are available at https://github.com/L3G5/impossible-bench
- Abstract(参考訳): 我々は,理にかなわない質問に対する LLM のベンチマークを実際に行うのは愚かではないことを示唆する。
また、そのようなテストと既存のデータセットを修正できる手法をベンチマークで示し、既存のモデルがそのような疑問に対して完璧とは程遠い性能を示すことを発見した。
私たちのコードとデータアーティファクトはhttps://github.com/L3G5/impossible-benchで公開されています。
関連論文リスト
- Information Density Principle for MLLM Benchmarks [59.88484827926759]
本稿では,MLLMの開発において,ベンチマークがどの程度の洞察を得られるかを検討する情報密度の原理を提案する。
1万以上のサンプルの包括的分析により,19個のMLLMベンチマークの情報密度を測定した。
実験によると、テストで最新のベンチマークを使用すると、以前のベンチマークよりも多くの洞察が得られるが、情報密度を改善する余地はまだ残っている。
論文 参考訳(メタデータ) (2025-03-13T05:58:41Z) - ThrowBench: Benchmarking LLMs by Predicting Runtime Exceptions [4.852619858744873]
大規模言語モデル(LLM)は、コード理解と合成の驚くべき能力を示している。
4つの異なるプログラミング言語で書かれた2,400以上の短いユーザ記述プログラムからなるベンチマークであるThrowBenchを紹介する。
我々は6つの最先端コードLLMのベンチマーク評価を行い、19~38%(F1スコア)の適度なパフォーマンスを確認した。
論文 参考訳(メタデータ) (2025-03-06T09:22:23Z) - Resurrecting saturated LLM benchmarks with adversarial encoding [0.0]
WMDP-bio(英語版)、GPQA(英語版)、MMLU(英語版)の3つのベンチマークで、ペアリング質問と回答オプションの追加について検討する。
より有能なモデルでは、これらのモデルがパフォーマンスを予測的に低下させ、本質的にベンチマークのパフォーマンスの天井を高くし、再び飽和させません。
論文 参考訳(メタデータ) (2025-02-10T18:07:09Z) - Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - LiveBench: A Challenging, Contamination-Limited LLM Benchmark [93.57775429120488]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。
我々は、多くの著名なクローズドソースモデルと、0.5Bから405Bまでの数十のオープンソースモデルを評価した。
質問は毎月追加され、更新され、時間とともに新しいタスクとより難しいタスクをリリースします。
論文 参考訳(メタデータ) (2024-06-27T16:47:42Z) - Top Leaderboard Ranking = Top Coding Proficiency, Always? EvoEval: Evolving Coding Benchmarks via LLM [13.324171480106715]
EvoEvalは、既存のベンチマークを異なるターゲットドメインに進化させたプログラム合成ベンチマークスイートである。
我々の研究では、HumanEvalのような標準ベンチマークで得られたハイパフォーマンスと比較して、パフォーマンスが大幅に低下していることが示されている。
本稿では,リワードや微妙な変化に遭遇した場合の命令追従モデルの脆さなど,様々な知見を紹介する。
論文 参考訳(メタデータ) (2024-03-28T03:10:39Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。