Fugu-MT 論文翻訳(概要): AutoPSV: Automated Process-Supervised Verifier

論文の概要: AutoPSV: Automated Process-Supervised Verifier

arxiv url: http://arxiv.org/abs/2405.16802v4
Date: Thu, 24 Oct 2024 09:52:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.836993
Title: AutoPSV: Automated Process-Supervised Verifier
Title（参考訳）: AutoPSV: プロセススーパーバイザによる自動検証
Authors: Jianqiao Lu, Zhiyang Dou, Hongru Wang, Zeyu Cao, Jianbo Dai, Yingjia Wan, Zhijiang Guo,
Abstract要約: textbf Automated textbfProcess-textbf Supervised textbfVerifier (textbftextscAutoPSV) textscAutoPSVは、最終回答の正しさに関する検証モデルをトレーニングすることから始まる。最終回答の正しさを訓練した検証モデルにより得られたステップレベルの信頼度変化が、推論ステップにおける誤りを効果的に識別できることを実験的に検証した。
参考スコア（独自算出の注目度）: 10.283965168399158
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we propose a novel method named \textbf{Auto}mated \textbf{P}rocess-\textbf{S}upervised \textbf{V}erifier (\textbf{\textsc{AutoPSV}}) to enhance the reasoning capabilities of large language models (LLMs) by automatically annotating the reasoning steps. \textsc{AutoPSV} begins by training a verification model on the correctness of final answers, enabling it to generate automatic process annotations. This verification model assigns a confidence score to each reasoning step, indicating the probability of arriving at the correct final answer from that point onward. We detect relative changes in the verification's confidence scores across reasoning steps to automatically annotate the reasoning process, enabling error detection even in scenarios where ground truth answers are unavailable. This alleviates the need for numerous manual annotations or the high computational costs associated with model-induced annotation approaches. We experimentally validate that the step-level confidence changes learned by the verification model trained on the final answer correctness can effectively identify errors in the reasoning steps. We demonstrate that the verification model, when trained on process annotations generated by \textsc{AutoPSV}, exhibits improved performance in selecting correct answers from multiple LLM-generated outputs. Notably, we achieve substantial improvements across five datasets in mathematics and commonsense reasoning. The source code of \textsc{AutoPSV} is available at \url{https://github.com/rookie-joe/AutoPSV}.
Abstract（参考訳）: 本研究では,大言語モデル(LLMs)の推論能力を高めるために,新たな手法を提案する。 \textsc{AutoPSV} は、最終回答の正しさに関する検証モデルをトレーニングし、自動的にプロセスアノテーションを生成することから始まる。この検証モデルは、各推論ステップに信頼スコアを割り当て、その時点から正しい最終回答に到達する確率を示す。検証の信頼性スコアの相対的な変化を検出し、推論プロセスを自動的に注釈付けし、真理の答えが得られないシナリオでもエラー検出を可能にする。これにより、多数の手動アノテーションの必要性や、モデルによるアノテーションアプローチに関連する高い計算コストが軽減される。最終回答の正しさを訓練した検証モデルにより得られたステップレベルの信頼度変化が、推論ステップにおける誤りを効果的に識別できることを実験的に検証した。本稿では, 検証モデルを用いて, プロセスアノテーションに基づいて学習すると, 複数のLCM出力から正しい回答を選択する際の性能が向上することが実証された。特に、数学とコモンセンス推論の5つのデータセットにまたがる大幅な改善を実現している。 \textsc{AutoPSV} のソースコードは \url{https://github.com/rookie-joe/AutoPSV} で公開されている。

関連論文リスト

Incentivizing LLMs to Self-Verify Their Answers [20.2584779107763]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示している。自明な回答を自己検証するために LLM をインセンティブとするフレームワークを提案する。我々はQwen2.5-Math-7BとDeepSeek-R1-Distill-Qwen-1.5Bに基づいて自己検証モデルを訓練する。
論文参考訳（メタデータ） (2025-06-02T06:54:29Z)
Can Large Reasoning Models Self-Train? [58.953117118687096]
大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-05-27T17:16:00Z)
The Geometry of Self-Verification in a Task-Specific Reasoning Model [45.669264589017665]
我々はCountDownタスクでDeepSeek R1のレシピを使ってモデルをトレーニングする。モデルがどのように出力を検証するかをリバースエンジニアリングするために、トップダウンとボトムアップの分析を行います。
論文参考訳（メタデータ） (2025-04-19T18:40:51Z)
Adaptive Rectification Sampling for Test-Time Compute Scaling [5.085583751997239]
本稿では,大規模言語モデルを自己補正に導くために,適応整形サンプリング(AR-Sampling)を提案する。我々のアプローチは、モデルがよりきめ細かいレベルで再考し、解の精度を向上することを可能にする。
論文参考訳（メタデータ） (2025-04-02T02:57:52Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Local Look-Ahead Guidance via Verifier-in-the-Loop for Automated Theorem Proving [17.289776394847063]
自動定理証明タスクのための新しい検証器-イン・ザ・ループ設計を提案する。実験により,ステップバイステップの局所的検証がモデルの推論精度と効率を大域的に向上させることを示す。
論文参考訳（メタデータ） (2025-03-12T18:20:47Z)
Debiased Prompt Tuning in Vision-Language Model without Annotations [14.811475313694041]
VLM(Vision-Language Models)は、素早い相関の問題に悩まされる可能性がある。擬似純粋属性アノテーションを利用することで,異なるグループのトレーニング重みを自動調整する手法を提案する。提案手法は,CelebA,Waterbirds,MetaShiftのデータセットにおける最悪のグループ精度を効率的に向上する。
論文参考訳（メタデータ） (2025-03-11T12:24:54Z)
Self-Adaptive Paraphrasing and Preference Learning for Improved Claim Verifiability [9.088303226909277]
事実チェックにおいて、クレームの構造と言い換えは、モデルの判断を正確に予測する能力に重大な影響を及ぼす。ラベル付きトレーニングデータに依存しないクレームを抽出する自己適応型手法を提案する。本稿では,従来のソーシャルメディアの定式化よりも検証可能なクレームパラフレーズを抽出した。
論文参考訳（メタデータ） (2024-12-16T10:54:57Z)
Automatic High-quality Verilog Assertion Generation through Subtask-Focused Fine-Tuned LLMs and Iterative Prompting [0.0]
高品質なシステムVerilog Assertions (SVA) を自動生成する大規模言語モデル(LLM)に基づくフローを提案する。サブタスクに着目したファインチューニング手法を導入し,機能的に正しいアサーションの数を7.3倍に増やした。実験では、このアプローチを使って構文エラーのないアサーション数が26%増加した。
論文参考訳（メタデータ） (2024-11-23T03:52:32Z)
InstructAV: Instruction Fine-tuning Large Language Models for Authorship Verification [9.151489275560413]
本稿では,著者確認のための新しいアプローチであるInstructAVを紹介する。このアプローチでは,パラメータ効率の細かいチューニング(PEFT)手法と併用して,精度と説明可能性の向上を図る。
論文参考訳（メタデータ） (2024-07-16T16:27:01Z)
Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models [54.14602121129874]
トレーニングデータを自動的に生成する最初のスケーラブルで信頼性の高いAutoIFを導入する。 AutoIFは命令追従データ品質の検証をコード検証に変換する。
論文参考訳（メタデータ） (2024-06-19T13:29:53Z)
A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains [33.46649770312231]
ステップバイステップの回答を提供するために言語モデルを実証することは、複雑な推論タスクにおいて顕著なアプローチである。このような検証方法の徹底的な評価を可能にするための、きめ細かいステップレベルのデータセットは提供されていない。 ReVEAL: Reasoning Verification Evaluationは複雑なチェーン・オブ・ソート推論の自動検証をベンチマークするデータセットである。
論文参考訳（メタデータ） (2024-02-01T12:46:45Z)
Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability [58.582216812183496]
言語モデル(LM)は、実際に正しいテキストを生成し、個々のクレームの真理値を推定することがある。現在のLMは誤った内容や非意味な内容を生成しており、編集や更新は困難である。本稿では,DCT(Deductive Closure Training)と呼ばれる手法を提案する。
論文参考訳（メタデータ） (2024-01-16T18:58:37Z)
Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文参考訳（メタデータ） (2023-11-26T22:47:54Z)
Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文参考訳（メタデータ） (2023-11-15T14:41:57Z)
Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文参考訳（メタデータ） (2020-12-07T14:16:14Z)
Pre-training Is (Almost) All You Need: An Application to Commonsense Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文参考訳（メタデータ） (2020-04-29T10:54:40Z)
Generating Fact Checking Explanations [52.879658637466605]
まだ欠けているパズルの重要なピースは、プロセスの最も精巧な部分を自動化する方法を理解することです。本稿では、これらの説明を利用可能なクレームコンテキストに基づいて自動生成する方法について、最初の研究を行う。この結果から,個別に学習するのではなく,両目標を同時に最適化することで,事実確認システムの性能が向上することが示唆された。
論文参考訳（メタデータ） (2020-04-13T05:23:25Z)
Model Assertions for Monitoring and Improving ML Models [26.90089824436192]
本稿では,MLモデルの監視と改善を行う手段として,プログラムアサーションの古典的利用に適応した新しい抽象化,モデルアサーションを提案する。モデルアサーションは、モデルがいつエラーが発生したかを示す入力と出力の任意の関数である。本稿では,ランタイム監視,ラベルの検証,MLモデルの継続的な改善など,MLシステムデプロイメントのすべての段階におけるモデルアサーションの使用方法を提案する。
論文参考訳（メタデータ） (2020-03-03T17:49:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。