論文の概要: ProgCo: Program Helps Self-Correction of Large Language Models
- arxiv url: http://arxiv.org/abs/2501.01264v1
- Date: Thu, 02 Jan 2025 13:59:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:17:38.570412
- Title: ProgCo: Program Helps Self-Correction of Large Language Models
- Title(参考訳): ProgCo:大規模言語モデルの自己補正を支援するプログラム
- Authors: Xiaoshuai Song, Yanan Wu, Weixun Wang, Jiaheng Liu, Wenbo Su, Bo Zheng,
- Abstract要約: Self-Correctionは、大規模な言語モデル(LLM)が、外部からのフィードバックなしに初期応答を自己検証し、自己定義できるようにすることを目的としている。
ProgCoは効果的な自己補正を実現し、実際のプログラムツールと組み合わせることでパフォーマンスをさらに向上させることができる。
- 参考スコア(独自算出の注目度): 32.65127404232516
- License:
- Abstract: Self-Correction aims to enable large language models (LLMs) to self-verify and self-refine their initial responses without external feedback. However, LLMs often fail to effectively self-verify and generate correct feedback, further misleading refinement and leading to the failure of self-correction, especially in complex reasoning tasks. In this paper, we propose Program-driven Self-Correction (ProgCo). First, program-driven verification (ProgVe) achieves complex verification logic and extensive validation through self-generated, self-executing verification pseudo-programs. Then, program-driven refinement (ProgRe) receives feedback from ProgVe, conducts dual reflection and refinement on both responses and verification programs to mitigate misleading of incorrect feedback in complex reasoning tasks. Experiments on three instruction-following and mathematical benchmarks indicate that ProgCo achieves effective self-correction, and can be further enhance performance when combined with real program tools.
- Abstract(参考訳): Self-Correctionは、大規模な言語モデル(LLM)が、外部からのフィードバックなしに初期応答を自己検証し、自己定義できるようにすることを目的としている。
しかし、LSMは、特に複雑な推論タスクにおいて、効果的な自己検証と正しいフィードバックの生成に失敗し、さらなる改善を誤解させ、自己補正の失敗につながる。
本稿では,プログラム駆動型自己補正(ProgCo)を提案する。
プログラム駆動検証(ProgVe)は,自己生成型自己実行型疑似プログラムを用いて,複雑な検証ロジックと広範な検証を実現する。
その後、ProgReはProgVeからフィードバックを受け取り、応答と検証プログラムの両方に二重反射と改善を行い、複雑な推論タスクにおける誤ったフィードバックの誤解を緩和する。
3つのインストラクションフォローと数学的ベンチマークの実験は、ProgCoが効果的な自己補正を実現し、実際のプログラムツールと組み合わせることでパフォーマンスをさらに向上させることができることを示している。
関連論文リスト
- ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z) - Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。
この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-01-28T15:41:54Z) - Enhancing Relation Extraction via Supervised Rationale Verification and Feedback [12.687458877141934]
本稿では,関係抽出のための新しいフィードバックフレームワークを提案する。
合理性を検証するための合理性スーパーバイザを提供し、初期予測を正すためのフィードバックとして再選択されたデモを提供する。
提案手法は既存手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-12-10T08:18:29Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Self-Correction is More than Refinement: A Learning Framework for Visual and Language Reasoning Tasks [43.96835245022083]
モデルにアウトプットを洗練させる自己補正は、この問題に対する有望な解決策である。
本研究では,視覚言語モデルの推論および微調整段階における自己補正能力について検討した。
論文 参考訳(メタデータ) (2024-10-05T06:28:54Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - RePair: Automated Program Repair with Process-based Feedback [28.017321930042694]
本稿では,プロセスの監督とフィードバックによって,小規模言語モデル(LM)が優れたパフォーマンスを実現する方法を示す。
我々は、批評家として機能する報酬モデルを開発し、微調整されたLMの行動に対するフィードバックを提供する。
その結果, プロセスベースでは, より大きな結果に基づく生成方法よりも, クローズドソースの大規模LMの性能にほぼ匹敵する結果が得られた。
論文 参考訳(メタデータ) (2024-08-21T02:53:23Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - Learning from Self-Sampled Correct and Partially-Correct Programs [96.66452896657991]
そこで本研究では,モデルが学習中にサンプリングを行い,自己サンプリングされた完全正当プログラムと部分正当プログラムの両方から学習することを提案する。
自己サンプリング型プログラムと部分修正型プログラムを併用することで,学習とサンプリングプロセスのガイドに役立てることができることを示す。
提案手法は,MLEを用いた単一の参照プログラムからの学習と比較して,パス@kの性能を3.1%から12.3%向上させる。
論文 参考訳(メタデータ) (2022-05-28T03:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。