論文の概要: AutoCV: Empowering Reasoning with Automated Process Labeling via Confidence Variation
- arxiv url: http://arxiv.org/abs/2405.16802v2
- Date: Tue, 28 May 2024 09:35:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 10:59:04.120478
- Title: AutoCV: Empowering Reasoning with Automated Process Labeling via Confidence Variation
- Title(参考訳): AutoCV: 信頼性の変動による自動プロセスラベリングによる推論の強化
- Authors: Jianqiao Lu, Zhiyang Dou, Hongru Wang, Zeyu Cao, Jianbo Dai, Yingjia Wan, Yinya Huang, Zhijiang Guo,
- Abstract要約: 我々は,textbfConfidence textbfVariation (textbftextscAutoCV) を用いた textbf Automated Process Labeling という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 10.728608587706534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose a novel method named \textbf{Auto}mated Process Labeling via \textbf{C}onfidence \textbf{V}ariation (\textbf{\textsc{AutoCV}}) to enhance the reasoning capabilities of large language models (LLMs) by automatically annotating the reasoning steps. Our approach begins by training a verification model on the correctness of final answers, enabling it to generate automatic process annotations. This verification model assigns a confidence score to each reasoning step, indicating the probability of arriving at the correct final answer from that point onward. We detect relative changes in the verification's confidence scores across reasoning steps to automatically annotate the reasoning process. This alleviates the need for numerous manual annotations or the high computational costs associated with model-induced annotation approaches. We experimentally validate that the confidence variations learned by the verification model trained on the final answer correctness can effectively identify errors in the reasoning steps. Subsequently, we demonstrate that the process annotations generated by \textsc{AutoCV} can improve the accuracy of the verification model in selecting the correct answer from multiple outputs generated by LLMs. Notably, we achieve substantial improvements across five datasets in mathematics and commonsense reasoning. The source code of \textsc{AutoCV} is available at \url{https://github.com/rookie-joe/AUTOCV}.
- Abstract(参考訳): 本研究では,大規模言語モデル (LLMs) の推論能力を高めるため, 推論ステップを自動的に注釈付けして, プロセスラベル作成を行う新しい手法を提案する。
我々のアプローチは、最終回答の正しさに関する検証モデルをトレーニングすることから始まり、自動的にプロセスアノテーションを生成することができる。
この検証モデルは、各推論ステップに信頼スコアを割り当て、その時点から正しい最終回答に到達する確率を示す。
我々は,検証の信頼性スコアの相対的な変化を推論ステップ間で検出し,推論プロセスを自動的に注釈付けする。
これにより、多数の手動アノテーションの必要性や、モデルによるアノテーションアプローチに関連する高い計算コストが軽減される。
最終回答の正しさを訓練した検証モデルにより得られた信頼度変化が、推論ステップにおける誤りを効果的に識別できることを実験的に検証した。
次に, 検証モデルの精度を向上し, LLM が生成した複数の出力から正しい回答を選択することを実証した。
特に、数学とコモンセンス推論の5つのデータセットにまたがる大幅な改善を実現している。
\textsc{AutoCV} のソースコードは \url{https://github.com/rookie-joe/AUTOCV} で公開されている。
関連論文リスト
- InstructAV: Instruction Fine-tuning Large Language Models for Authorship Verification [9.151489275560413]
本稿では,著者確認のための新しいアプローチであるInstructAVを紹介する。
このアプローチでは,パラメータ効率の細かいチューニング(PEFT)手法と併用して,精度と説明可能性の向上を図る。
論文 参考訳(メタデータ) (2024-07-16T16:27:01Z) - Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models [54.14602121129874]
トレーニングデータを自動的に生成する最初のスケーラブルで信頼性の高いAutoIFを導入する。
AutoIFは命令追従データ品質の検証をコード検証に変換する。
論文 参考訳(メタデータ) (2024-06-19T13:29:53Z) - Pearls from Pebbles: Improved Confidence Functions for Auto-labeling [51.44986105969375]
しきい値に基づく自動ラベル付け(TBAL)は、上記のモデルの信頼度スコアのしきい値を見つけ、ラベルなしのデータポイントを正確にラベル付けすることで機能する。
本稿では,近位TBAL信頼度関数の研究のための枠組みを提案する。
本稿では,TBALシステムの性能を最大化するポストホック法を提案する。
論文 参考訳(メタデータ) (2024-04-24T20:22:48Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - How Good is the Model in Model-in-the-loop Event Coreference Resolution
Annotation? [3.712417884848568]
本稿では、イベントコア参照解決のためのモデル-in-the-loopアノテーションアプローチを提案する。
まずアノテーションプロセスのシミュレートを行い,新しいアノテータ中心のリコール・ワーク・トレードオフ・メトリックを用いて,基礎となるモデルとデータセットの結果を比較することにより,このアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-06T18:06:24Z) - Learning Word-Level Confidence For Subword End-to-End ASR [48.09713798451474]
自動音声認識(ASR)のためのサブワードベースエンドツーエンド(E2E)モデルにおける単語レベルの信頼度推定の問題について検討する。
提案した信頼度モジュールは、デバイス上のE2Eモデルとサーバ上のハイブリッドモデルを組み合わせて、E2Eモデルの稀な単語認識問題に対処するモデル選択アプローチを可能にする。
論文 参考訳(メタデータ) (2021-03-11T15:03:33Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z) - Generating Fact Checking Explanations [52.879658637466605]
まだ欠けているパズルの重要なピースは、プロセスの最も精巧な部分を自動化する方法を理解することです。
本稿では、これらの説明を利用可能なクレームコンテキストに基づいて自動生成する方法について、最初の研究を行う。
この結果から,個別に学習するのではなく,両目標を同時に最適化することで,事実確認システムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-13T05:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。