Fugu-MT 論文翻訳(概要): AutoCV: Empowering Reasoning with Automated Process Labeling via Confidence Variation

論文の概要: AutoCV: Empowering Reasoning with Automated Process Labeling via Confidence Variation

arxiv url: http://arxiv.org/abs/2405.16802v2
Date: Tue, 28 May 2024 09:35:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 10:59:04.120478
Title: AutoCV: Empowering Reasoning with Automated Process Labeling via Confidence Variation
Title（参考訳）: AutoCV: 信頼性の変動による自動プロセスラベリングによる推論の強化
Authors: Jianqiao Lu, Zhiyang Dou, Hongru Wang, Zeyu Cao, Jianbo Dai, Yingjia Wan, Yinya Huang, Zhijiang Guo,
Abstract要約: 我々は,textbfConfidence textbfVariation (textbftextscAutoCV) を用いた textbf Automated Process Labeling という新しい手法を提案する。
参考スコア（独自算出の注目度）: 10.728608587706534
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we propose a novel method named \textbf{Auto}mated Process Labeling via \textbf{C}onfidence \textbf{V}ariation (\textbf{\textsc{AutoCV}}) to enhance the reasoning capabilities of large language models (LLMs) by automatically annotating the reasoning steps. Our approach begins by training a verification model on the correctness of final answers, enabling it to generate automatic process annotations. This verification model assigns a confidence score to each reasoning step, indicating the probability of arriving at the correct final answer from that point onward. We detect relative changes in the verification's confidence scores across reasoning steps to automatically annotate the reasoning process. This alleviates the need for numerous manual annotations or the high computational costs associated with model-induced annotation approaches. We experimentally validate that the confidence variations learned by the verification model trained on the final answer correctness can effectively identify errors in the reasoning steps. Subsequently, we demonstrate that the process annotations generated by \textsc{AutoCV} can improve the accuracy of the verification model in selecting the correct answer from multiple outputs generated by LLMs. Notably, we achieve substantial improvements across five datasets in mathematics and commonsense reasoning. The source code of \textsc{AutoCV} is available at \url{https://github.com/rookie-joe/AUTOCV}.
Abstract（参考訳）: 本研究では,大規模言語モデル (LLMs) の推論能力を高めるため, 推論ステップを自動的に注釈付けして, プロセスラベル作成を行う新しい手法を提案する。我々のアプローチは、最終回答の正しさに関する検証モデルをトレーニングすることから始まり、自動的にプロセスアノテーションを生成することができる。この検証モデルは、各推論ステップに信頼スコアを割り当て、その時点から正しい最終回答に到達する確率を示す。我々は,検証の信頼性スコアの相対的な変化を推論ステップ間で検出し,推論プロセスを自動的に注釈付けする。これにより、多数の手動アノテーションの必要性や、モデルによるアノテーションアプローチに関連する高い計算コストが軽減される。最終回答の正しさを訓練した検証モデルにより得られた信頼度変化が、推論ステップにおける誤りを効果的に識別できることを実験的に検証した。次に, 検証モデルの精度を向上し, LLM が生成した複数の出力から正しい回答を選択することを実証した。特に、数学とコモンセンス推論の5つのデータセットにまたがる大幅な改善を実現している。 \textsc{AutoCV} のソースコードは \url{https://github.com/rookie-joe/AUTOCV} で公開されている。

関連論文リスト

The Geometry of Self-Verification in a Task-Specific Reasoning Model [45.669264589017665]
我々はCountDownタスクでDeepSeek R1のレシピを使ってモデルをトレーニングする。モデルがどのように出力を検証するかをリバースエンジニアリングするために、トップダウンとボトムアップの分析を行います。
論文参考訳（メタデータ） (2025-04-19T18:40:51Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Local Look-Ahead Guidance via Verifier-in-the-Loop for Automated Theorem Proving [17.289776394847063]
自動定理証明タスクのための新しい検証器-イン・ザ・ループ設計を提案する。実験により,ステップバイステップの局所的検証がモデルの推論精度と効率を大域的に向上させることを示す。
論文参考訳（メタデータ） (2025-03-12T18:20:47Z)
Self-Adaptive Paraphrasing and Preference Learning for Improved Claim Verifiability [9.088303226909277]
事実チェックにおいて、クレームの構造と言い換えは、モデルの判断を正確に予測する能力に重大な影響を及ぼす。ラベル付きトレーニングデータに依存しないクレームを抽出する自己適応型手法を提案する。本稿では,従来のソーシャルメディアの定式化よりも検証可能なクレームパラフレーズを抽出した。
論文参考訳（メタデータ） (2024-12-16T10:54:57Z)
Automatic High-quality Verilog Assertion Generation through Subtask-Focused Fine-Tuned LLMs and Iterative Prompting [0.0]
高品質なシステムVerilog Assertions (SVA) を自動生成する大規模言語モデル(LLM)に基づくフローを提案する。サブタスクに着目したファインチューニング手法を導入し,機能的に正しいアサーションの数を7.3倍に増やした。実験では、このアプローチを使って構文エラーのないアサーション数が26%増加した。
論文参考訳（メタデータ） (2024-11-23T03:52:32Z)
InstructAV: Instruction Fine-tuning Large Language Models for Authorship Verification [9.151489275560413]
本稿では,著者確認のための新しいアプローチであるInstructAVを紹介する。このアプローチでは,パラメータ効率の細かいチューニング(PEFT)手法と併用して,精度と説明可能性の向上を図る。
論文参考訳（メタデータ） (2024-07-16T16:27:01Z)
Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models [54.14602121129874]
トレーニングデータを自動的に生成する最初のスケーラブルで信頼性の高いAutoIFを導入する。 AutoIFは命令追従データ品質の検証をコード検証に変換する。
論文参考訳（メタデータ） (2024-06-19T13:29:53Z)
A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains [33.46649770312231]
ステップバイステップの回答を提供するために言語モデルを実証することは、複雑な推論タスクにおいて顕著なアプローチである。このような検証方法の徹底的な評価を可能にするための、きめ細かいステップレベルのデータセットは提供されていない。 ReVEAL: Reasoning Verification Evaluationは複雑なチェーン・オブ・ソート推論の自動検証をベンチマークするデータセットである。
論文参考訳（メタデータ） (2024-02-01T12:46:45Z)
Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability [58.582216812183496]
言語モデル(LM)は、実際に正しいテキストを生成し、個々のクレームの真理値を推定することがある。現在のLMは誤った内容や非意味な内容を生成しており、編集や更新は困難である。本稿では,DCT(Deductive Closure Training)と呼ばれる手法を提案する。
論文参考訳（メタデータ） (2024-01-16T18:58:37Z)
Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文参考訳（メタデータ） (2023-11-15T14:41:57Z)
Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文参考訳（メタデータ） (2020-12-07T14:16:14Z)
Pre-training Is (Almost) All You Need: An Application to Commonsense Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文参考訳（メタデータ） (2020-04-29T10:54:40Z)
Generating Fact Checking Explanations [52.879658637466605]
まだ欠けているパズルの重要なピースは、プロセスの最も精巧な部分を自動化する方法を理解することです。本稿では、これらの説明を利用可能なクレームコンテキストに基づいて自動生成する方法について、最初の研究を行う。この結果から,個別に学習するのではなく,両目標を同時に最適化することで,事実確認システムの性能が向上することが示唆された。
論文参考訳（メタデータ） (2020-04-13T05:23:25Z)
Model Assertions for Monitoring and Improving ML Models [26.90089824436192]
本稿では,MLモデルの監視と改善を行う手段として,プログラムアサーションの古典的利用に適応した新しい抽象化,モデルアサーションを提案する。モデルアサーションは、モデルがいつエラーが発生したかを示す入力と出力の任意の関数である。本稿では,ランタイム監視,ラベルの検証,MLモデルの継続的な改善など,MLシステムデプロイメントのすべての段階におけるモデルアサーションの使用方法を提案する。
論文参考訳（メタデータ） (2020-03-03T17:49:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。