論文の概要: Dyve: Thinking Fast and Slow for Dynamic Process Verification
- arxiv url: http://arxiv.org/abs/2502.11157v1
- Date: Sun, 16 Feb 2025 15:11:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:12:00.469369
- Title: Dyve: Thinking Fast and Slow for Dynamic Process Verification
- Title(参考訳): Dyve: 動的プロセス検証を高速かつスローに考える
- Authors: Jianyuan Zhong, Zeju Li, Zhijian Xu, Xiangyu Wen, Qiang Xu,
- Abstract要約: Dyveは動的プロセス検証器で、高速で遅い思考を統合することで、大きな言語モデルにおける推論エラー検出を強化する。
我々は、Dyveが既存のプロセスベースの検証を著しく上回り、Best-of-N設定の性能を高めることを示す。
- 参考スコア(独自算出の注目度): 11.695406451441603
- License:
- Abstract: We present Dyve, a dynamic process verifier that enhances reasoning error detection in large language models by integrating fast and slow thinking, inspired by Kahneman's Systems Theory. Dyve adaptively applies immediate token-level confirmation System 1 for straightforward steps and comprehensive analysis System 2 for complex ones. Leveraging a novel step-wise consensus-filtered process supervision technique, combining Monte Carlo estimation with LLM based evaluation, Dyve curates high-quality supervision signals from noisy data. Experimental results on ProcessBench and the MATH dataset confirm that Dyve significantly outperforms existing process-based verifiers and boosts performance in Best-of-N settings.
- Abstract(参考訳): 我々は,Kahnemanのシステム理論にインスパイアされた,高速で遅い思考を統合することで,大規模言語モデルにおける推論エラー検出を強化する動的プロセス検証器Dyveを提案する。
Dyveは、簡単なステップで即時トークンレベルの確認システム1、複雑なステップで包括的な分析システム2を適応的に適用する。
モンテカルロ推定とLCMに基づく評価を組み合わせ、ステップワイズコンセンサスフィルタリングプロセス監視技術を活用し、Dyveはノイズデータから高品質な監視信号をキュレートする。
ProcessBenchとMATHデータセットの実験結果によると、Dyveは既存のプロセスベースの検証よりも大幅に優れており、Best-of-N設定のパフォーマンスが向上している。
関連論文リスト
- Fast T2T: Optimization Consistency Speeds Up Diffusion-Based Training-to-Testing Solving for Combinatorial Optimization [83.65278205301576]
雑音レベルから与えられたインスタンスの最適解への直接写像を学習し、最小限のショットで高品質な生成を容易にすることを提案する。
これは、サンプル間の差を最小限に抑える最適化一貫性トレーニングプロトコルによって達成される。
The Traveling Salesman Problem (TSP) と Maximal Independent Set (MIS) は、ソリューションの品質と効率の両方に関して、Fast T2Tの優位性を実証している。
論文 参考訳(メタデータ) (2025-02-05T07:13:43Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback [94.25162866972077]
Step-KTOは、プロセスレベルと結果レベルのバイナリフィードバックを組み合わせたトレーニングフレームワークである。
実験の結果,Step-KTOは最終回答の精度と中間推論の質の両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-18T15:38:03Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。
TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。
このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文 参考訳(メタデータ) (2024-10-02T18:17:54Z) - Multi-step Problem Solving Through a Verifier: An Empirical Analysis on Model-induced Process Supervision [40.984680166762345]
データキュレーションを自動化する新しい手法であるMiPS(Model-induced Process Supervision)を導入する。
MiPSは、推論モデルを通じてこの解の完了をサンプリングし、正しい完了の比率として定義される精度を得ることによって中間段階を注釈する。
提案手法は,算数および符号化タスクにおける PaLM 2 の性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-02-05T00:57:51Z) - Safe Real-Time Optimization using Multi-Fidelity Gaussian Processes [0.0]
本稿では,不確実なプロセスのシステムミスマッチを克服するリアルタイム最適化手法を提案する。
提案方式では, 既知のプロセスモデルをエミュレートする2つのガウス過程と, 測定による真のシステムを用いる。
論文 参考訳(メタデータ) (2021-11-10T09:31:10Z) - CoCoMoT: Conformance Checking of Multi-Perspective Processes via SMT
(Extended Version) [62.96267257163426]
我々はCoCoMoT(Computing Conformance Modulo Theories)フレームワークを紹介する。
まず、純粋な制御フロー設定で研究したSATベースのエンコーディングを、データ認識ケースに持ち上げる方法を示す。
次に,プロパティ保存型クラスタリングの概念に基づく新しい前処理手法を提案する。
論文 参考訳(メタデータ) (2021-03-18T20:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。