論文の概要: InfoSynth: Information-Guided Benchmark Synthesis for LLMs
- arxiv url: http://arxiv.org/abs/2601.00575v1
- Date: Fri, 02 Jan 2026 05:26:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.524734
- Title: InfoSynth: Information-Guided Benchmark Synthesis for LLMs
- Title(参考訳): InfoSynth:LLMのための情報誘導ベンチマーク合成
- Authors: Ishir Garg, Neel Kolhe, Xuandong Zhao, Dawn Song,
- Abstract要約: 大規模言語モデル (LLM) は推論やコード生成において大きな進歩を見せている。
従来のベンチマーク作成は人手による作業に依存しています。
この作業では、推論ベンチマークの自動生成と評価のための新しいフレームワークであるInfo Synthを紹介した。
- 参考スコア(独自算出の注目度): 69.80981631587501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated significant advancements in reasoning and code generation. However, efficiently creating new benchmarks to evaluate these capabilities remains a challenge. Traditional benchmark creation relies on manual human effort, a process that is both expensive and time-consuming. Furthermore, existing benchmarks often contaminate LLM training data, necessitating novel and diverse benchmarks to accurately assess their genuine capabilities. This work introduces InfoSynth, a novel framework for automatically generating and evaluating reasoning benchmarks guided by information-theoretic principles. We propose metrics based on KL-divergence and entropy to quantify benchmark novelty and diversity without relying on costly model evaluations. Building on this framework, we develop an end-to-end pipeline that synthesizes robust Python coding problems from seed datasets using genetic algorithms and iterative code feedback. Our method generates accurate test cases and solutions to new problems 97% of the time, and the synthesized benchmarks consistently exhibit higher novelty and diversity compared to their seed datasets. Moreover, our algorithm provides a method for controlling the novelty/diversity and difficulty of generated problems. InfoSynth offers a scalable, self-verifying pipeline for constructing high-quality, novel and diverse benchmarks for LLMs. Project Page: https://ishirgarg.github.io/infosynth_web/
- Abstract(参考訳): 大規模言語モデル (LLM) は推論やコード生成において大きな進歩を見せている。
しかしながら、これらの機能を評価するために、効率的に新しいベンチマークを作成することは、依然として課題である。
従来のベンチマーク作成は人手による作業に依存しています。
さらに、既存のベンチマークはしばしばLLMトレーニングデータを汚染し、それらの真の能力を正確に評価するために、新しく多様なベンチマークを必要とする。
情報理論の原則によって導かれる推論ベンチマークを自動生成し評価するための新しいフレームワークであるInfoSynthを紹介する。
我々は,KL分割とエントロピーに基づくメトリクスを提案し,コストのかかるモデル評価に頼ることなく,ベンチマークの新規性と多様性を定量化する。
このフレームワークに基づいて、遺伝的アルゴリズムと反復的なコードフィードバックを用いて、シードデータセットから堅牢なPythonコーディング問題を合成するエンドツーエンドパイプラインを開発する。
提案手法は,97%の時間で精度の高いテストケースと新しい問題に対する解を生成する。
さらに,本アルゴリズムは,生成した問題の新規性と多様性,難易度を制御できる手法を提供する。
InfoSynthは、LLMの高品質で斬新で多様なベンチマークを構築するためのスケーラブルで自己検証のパイプラインを提供する。
Project Page: https://ishirgarg.github.io/infosynth_web/
関連論文リスト
- CoT-Self-Instruct: Building high-quality synthetic prompts for reasoning and non-reasoning tasks [59.69339605157168]
CoT-Self-Instructは、LCMに第一の理由と設計をChain-of-Thought経由で指示する合成データ生成手法である。
検証可能な推論において、我々の合成データは既存のトレーニングデータセットを著しく上回る。
検証不能な命令追従タスクでは,本手法は人間と標準の自己指導訓練データの両方の性能を超越する。
論文 参考訳(メタデータ) (2025-07-31T17:38:50Z) - OIBench: Benchmarking Strong Reasoning Models with Olympiad in Informatics [13.049841309304922]
本稿では,OIBenchについて紹介する。OIBenchは高品質でプライベートで,250個の厳格なオリジナル問題からなる,オリンピックレベルの情報データセットである。
ベンチマークの構築手法を詳述し、様々なプログラミングパラダイムや複雑さの包括的評価を確実にする。
我々は,よりきめ細かな効率解析のための時間/空間補完曲線を提案し,直接人-モデル比較を可能にする。
論文 参考訳(メタデータ) (2025-06-12T08:33:38Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - BenchAgents: Multi-Agent Systems for Structured Benchmark Creation [23.653678381444276]
BenchAgentsは評価ベンチマークの作成を自動化するフレームワークである。
BenchAgentsを使って、計画、制約満足度、因果推論に関連する機能を評価するベンチマークを作成します。
次に、これらのベンチマークを使用して、最先端のモデルを研究し、共通の障害モードとモデルの違いに関する新たな洞察を抽出します。
論文 参考訳(メタデータ) (2024-10-29T22:56:18Z) - Skip the Benchmark: Generating System-Level High-Level Synthesis Data using Generative Machine Learning [8.416553728391309]
高レベル合成(HLS)設計空間探索(DSE)は、HLSプロセスにおいて最適なハードウェアソリューションを探索するための広く受け入れられているアプローチである。
いくつかのHLSベンチマークとデータセットは、研究コミュニティが彼らの方法論を評価するために利用できる。
本稿では,複雑なシステムレベルのHLS DSE実験を支援するのに十分頑健な合成データを生成するために,生成機械学習を用いた新しいアプローチであるVaeganを提案する。
論文 参考訳(メタデータ) (2024-04-23T05:32:22Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - PDEBENCH: An Extensive Benchmark for Scientific Machine Learning [20.036987098901644]
部分微分方程式(PDE)に基づく時間依存シミュレーションタスクのベンチマークスイートであるPDEBenchを紹介する。
PDEBenchは、コードとデータの両方で構成され、古典的な数値シミュレーションと機械学習ベースラインの両方に対して、新しい機械学習モデルのパフォーマンスをベンチマークする。
論文 参考訳(メタデータ) (2022-10-13T17:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。