Fugu-MT 論文翻訳(概要): BSBench: will your LLM find the largest prime number?

論文の概要: BSBench: will your LLM find the largest prime number?

arxiv url: http://arxiv.org/abs/2506.04535v1
Date: Thu, 05 Jun 2025 00:59:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-06 21:53:49.474231
Title: BSBench: will your LLM find the largest prime number?
Title（参考訳）: BSBench: LLMは最大の素数を見つけますか?
Authors: K. O. T. Erziev,
Abstract要約: 合理的な答えのない質問に対するLSMのベンチマークは、聞こえるほど愚かなものではない。このようなテストを可能にするベンチマークと,既存のデータセットを修正可能なメソッドを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose that benchmarking LLMs on questions which have no reasonable answer actually isn't as silly as it sounds. We also present a benchmark that allows such testing and a method to modify the existing datasets, and discover that existing models demonstrate a performance far from the perfect on such questions. Our code and data artifacts are available at https://github.com/L3G5/impossible-bench
Abstract（参考訳）: 我々は,理にかなわない質問に対する LLM のベンチマークを実際に行うのは愚かではないことを示唆する。また、そのようなテストと既存のデータセットを修正できる手法をベンチマークで示し、既存のモデルがそのような疑問に対して完璧とは程遠い性能を示すことを発見した。私たちのコードとデータアーティファクトはhttps://github.com/L3G5/impossible-benchで公開されています。

関連論文リスト

CLEVER: A Curated Benchmark for Formally Verified Code Generation [57.476483009565044]
$rm Csmall LEVER$は、リーンにおけるエンドツーエンドのコード生成のための161の問題を、高品質でキュレートしたベンチマークである。それぞれの問題は、(1)堅実な仕様と一致する仕様を生成するタスク、(2)この仕様を確実に満足するリーン実装を生成するタスクで構成されています。
論文参考訳（メタデータ） (2025-05-20T05:15:47Z)
Information Density Principle for MLLM Benchmarks [59.88484827926759]
本稿では,MLLMの開発において,ベンチマークがどの程度の洞察を得られるかを検討する情報密度の原理を提案する。 1万以上のサンプルの包括的分析により,19個のMLLMベンチマークの情報密度を測定した。実験によると、テストで最新のベンチマークを使用すると、以前のベンチマークよりも多くの洞察が得られるが、情報密度を改善する余地はまだ残っている。
論文参考訳（メタデータ） (2025-03-13T05:58:41Z)
ThrowBench: Benchmarking LLMs by Predicting Runtime Exceptions [4.852619858744873]
大規模言語モデル(LLM)は、コード理解と合成の驚くべき能力を示している。 4つの異なるプログラミング言語で書かれた2,400以上の短いユーザ記述プログラムからなるベンチマークであるThrowBenchを紹介する。我々は6つの最先端コードLLMのベンチマーク評価を行い、19～38%(F1スコア)の適度なパフォーマンスを確認した。
論文参考訳（メタデータ） (2025-03-06T09:22:23Z)
Resurrecting saturated LLM benchmarks with adversarial encoding [0.0]
WMDP-bio(英語版)、GPQA(英語版)、MMLU(英語版)の3つのベンチマークで、ペアリング質問と回答オプションの追加について検討する。より有能なモデルでは、これらのモデルがパフォーマンスを予測的に低下させ、本質的にベンチマークのパフォーマンスの天井を高くし、再び飽和させません。
論文参考訳（メタデータ） (2025-02-10T18:07:09Z)
Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文参考訳（メタデータ） (2025-02-05T18:58:19Z)
LiveBench: A Challenging, Contamination-Limited LLM Benchmark [93.57775429120488]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。我々は、多くの著名なクローズドソースモデルと、0.5Bから405Bまでの数十のオープンソースモデルを評価した。質問は毎月追加され、更新され、時間とともに新しいタスクとより難しいタスクをリリースします。
論文参考訳（メタデータ） (2024-06-27T16:47:42Z)
Top Leaderboard Ranking = Top Coding Proficiency, Always? EvoEval: Evolving Coding Benchmarks via LLM [13.324171480106715]
EvoEvalは、既存のベンチマークを異なるターゲットドメインに進化させたプログラム合成ベンチマークスイートである。我々の研究では、HumanEvalのような標準ベンチマークで得られたハイパフォーマンスと比較して、パフォーマンスが大幅に低下していることが示されている。本稿では,リワードや微妙な変化に遭遇した場合の命令追従モデルの脆さなど,様々な知見を紹介する。
論文参考訳（メタデータ） (2024-03-28T03:10:39Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
LLMeBench: A Flexible Framework for Accelerating LLMs Benchmarking [26.413008616554816]
言語に関係なく,任意のNLPタスクに対してLLM(Large Language Models)を評価するために,シームレスにカスタマイズできるLLMeBenchフレームワークを紹介した。特定のデータセットとタスクは、20行未満のコードで所定のLLMに対して評価できると同時に、カスタムデータセット、モデル、タスクのためのフレームワークを完全な柔軟性で拡張することができる。このフレームワークは、約296Kのデータポイントを含む90の実験的なセットアップ内で53の公開データセットを使用して、31のユニークなNLPタスクでテストされている。
論文参考訳（メタデータ） (2023-08-09T13:22:37Z)
Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文参考訳（メタデータ） (2023-05-24T06:16:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。