論文の概要: How2Everything: Mining the Web for How-To Procedures to Evaluate and Improve LLMs
- arxiv url: http://arxiv.org/abs/2602.08808v1
- Date: Mon, 09 Feb 2026 15:47:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.331857
- Title: How2Everything: Mining the Web for How-To Procedures to Evaluate and Improve LLMs
- Title(参考訳): How2Everything: LLMの評価と改善のためのハウツー手順のためのWebマイニング
- Authors: Yapei Chang, Kyle Lo, Mohit Iyyer, Luca Soldaini,
- Abstract要約: How2Everythingは、ゴール条件ドプロシージャの生成を評価し改善するフレームワークである。
私たちのフレームワークには、14トピックにわたる980KのWebページから351KのプロシージャをマイニングするHow2Mineが含まれています。
How2Score(ハウ2スコア)は、LLMジャッジを使用して、世代が目標達成を阻止する重要な障害を含むかどうかを検出する評価プロトコルである。
- 参考スコア(独自算出の注目度): 49.61011897610774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating step-by-step "how-to" procedures is a key LLM capability: how-to advice is commonly requested in chatbots, and step-by-step planning is critical for reasoning over complex tasks. Yet, measuring and improving procedural validity at scale on real-world tasks remains challenging and understudied. To address this, we introduce How2Everything, a scalable framework to evaluate and improve goal-conditioned procedure generation. Our framework includes How2Mine, which mines 351K procedures from 980K web pages across 14 topics and readily scales to larger corpora. From this pool we build How2Bench, a 7K-example evaluation set balanced across topics. To reliably score model outputs, we develop How2Score, an evaluation protocol that uses an LLM judge to detect whether a generation contains any critical failure that would prevent achieving the goal. For low-cost, reproducible evaluation, we distill a frontier model into an open 8B model, achieving 80.5% agreement with human annotators. How2Bench reveals clear scaling trends across model sizes and training stages, providing signal early in pretraining. Finally, RL using How2Score as a reward improves performance on How2Bench by >10 points across three models without systematic regressions on standard benchmarks, with gains robust to superficial source-document memorization or format compliance. Taken together, How2Everything shows how pretraining web data can support a closed loop of capability evaluation and improvement at scale.
- Abstract(参考訳): How-toアドバイスはチャットボットで一般的に求められ、ステップバイステップの計画は複雑なタスクの推論に不可欠である。
しかし、現実のタスクにおける大規模な手続き的妥当性の測定と改善は依然として困難であり、検討が続けられている。
そこで我々は,目標条件付きプロシージャ生成の評価と改善を行うスケーラブルなフレームワークであるHow2Everythingを紹介した。
私たちのフレームワークには、14のトピックにわたる980KのWebページから351Kのプロシージャをマイニングし、簡単により大きなコーパスにスケールするHow2Mineが含まれています。
このプールから、トピック間でバランスの取れた7Kサンプル評価セットであるHow2Benchを構築します。
モデル出力を確実に評価するために,LLM判定器を用いた評価プロトコルであるHow2Scoreを開発した。
低コストで再現可能な評価のために、フロンティアモデルをオープン8Bモデルに蒸留し、人間のアノテータと80.5%の合意を得る。
How2Benchは、モデルサイズとトレーニングステージの明確なスケーリングトレンドを明らかにし、事前トレーニングの早期にシグナルを提供する。
最後に、How2Scoreを報酬として使用するRLは、標準ベンチマークに体系的な回帰を伴わない3つのモデルで、How2Benchのパフォーマンスを10ポイント以上改善する。
まとめて、How2Everythingは、Webデータの事前トレーニングが機能評価と大規模改善のクローズドループをサポートする方法を示している。
関連論文リスト
- SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning [39.1720897614261]
密度の高いステップレベルのフィードバックを提供するプロセス報酬モデル(PRM)は、強化学習の可能性を示している。
筆者らはSPARK(SPARK)という3段階のフレームワークを提案し、第1段階ではジェネレータモデルが多様な解を生成し、検証器モデルがそれらを評価する。
ステップレベルで複数の独立した検証を集約することで、根底的な結果管理を超越したプロセス報酬モデルのトレーニングデータが得られることを示す。
論文 参考訳(メタデータ) (2025-12-02T21:30:47Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - TurnBench-MS: A Benchmark for Evaluating Multi-Turn, Multi-Step Reasoning in Large Language Models [5.6525926183880255]
本論文では,対話型コードブレークタスクによるマルチターン・マルチステップ推論を評価する新しいベンチマークであるTurnBenchを紹介する。
各エピソードにおいて、モデルはシーケンシャルな推測を行い、構造化されたフィードバックを受け取り、複数のラウンドで手がかりを統合することによって、隠れた論理的または算術的なルールを明らかにする必要がある。
TurnBenchには、標準推論をテストするClassicと、複雑さを増し堅牢な推論チェーンを必要とするNightmareの2つのモードがある。
論文 参考訳(メタデータ) (2025-06-02T05:47:50Z) - Pre-Act: Multi-Step Planning and Reasoning Improves Acting in LLM Agents [40.73340280747757]
大規模言語モデル(LLM)におけるReAct能力は、現代のエージェントシステムの基盤となっている。
マルチステップ実行計画を作成することでエージェントのパフォーマンスを向上させる新しいアプローチであるPre-Actを導入する。
我々のアプローチは会話エージェントと非会話エージェントの両方に適用できる。
論文 参考訳(メタデータ) (2025-05-15T05:17:47Z) - SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning [99.645427839457]
セルフプレイ批判(Self-Play Critic、SPC)は、対戦型セルフプレイゲームを通じて推論ステップを評価する能力を進化させる新しいアプローチである。
SPCは、ベースモデルの2つのコピーを微調整して、2つの役割、すなわち「スニーキージェネレータ」と「批判的」を演じる。
論文 参考訳(メタデータ) (2025-04-27T08:45:06Z) - L0-Reasoning Bench: Evaluating Procedural Correctness in Language Models via Simple Program Execution [31.19899557805607]
複雑な推論タスクは、インクリメンタルなステップで単純なルールを一貫して正確に適用する能力に依存していることが多い。
手続き的正確性をテストするための言語モデルベンチマークであるL0-Benchを紹介する。
L0-Benchはステップバイステップでエラーのない実行トレースを生成する能力に基づいてモデルをグレードする。
論文 参考訳(メタデータ) (2025-03-28T18:54:56Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。