Fugu-MT 論文翻訳(概要): ProgCo: Program Helps Self-Correction of Large Language Models

論文の概要: ProgCo: Program Helps Self-Correction of Large Language Models

arxiv url: http://arxiv.org/abs/2501.01264v1
Date: Thu, 02 Jan 2025 13:59:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-05 16:54:32.261881
Title: ProgCo: Program Helps Self-Correction of Large Language Models
Title（参考訳）: ProgCo:大規模言語モデルの自己補正を支援するプログラム
Authors: Xiaoshuai Song, Yanan Wu, Weixun Wang, Jiaheng Liu, Wenbo Su, Bo Zheng,
Abstract要約: Self-Correctionは、大規模な言語モデル(LLM)が、外部からのフィードバックなしに初期応答を自己検証し、自己定義できるようにすることを目的としている。 ProgCoは効果的な自己補正を実現し、実際のプログラムツールと組み合わせることでパフォーマンスをさらに向上させることができる。
参考スコア（独自算出の注目度）: 32.65127404232516
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Self-Correction aims to enable large language models (LLMs) to self-verify and self-refine their initial responses without external feedback. However, LLMs often fail to effectively self-verify and generate correct feedback, further misleading refinement and leading to the failure of self-correction, especially in complex reasoning tasks. In this paper, we propose Program-driven Self-Correction (ProgCo). First, program-driven verification (ProgVe) achieves complex verification logic and extensive validation through self-generated, self-executing verification pseudo-programs. Then, program-driven refinement (ProgRe) receives feedback from ProgVe, conducts dual reflection and refinement on both responses and verification programs to mitigate misleading of incorrect feedback in complex reasoning tasks. Experiments on three instruction-following and mathematical benchmarks indicate that ProgCo achieves effective self-correction, and can be further enhance performance when combined with real program tools.
Abstract（参考訳）: Self-Correctionは、大規模な言語モデル(LLM)が、外部からのフィードバックなしに初期応答を自己検証し、自己定義できるようにすることを目的としている。しかし、LSMは、特に複雑な推論タスクにおいて、効果的な自己検証と正しいフィードバックの生成に失敗し、さらなる改善を誤解させ、自己補正の失敗につながる。本稿では,プログラム駆動型自己補正(ProgCo)を提案する。プログラム駆動検証(ProgVe)は,自己生成型自己実行型疑似プログラムを用いて,複雑な検証ロジックと広範な検証を実現する。その後、ProgReはProgVeからフィードバックを受け取り、応答と検証プログラムの両方に二重反射と改善を行い、複雑な推論タスクにおける誤ったフィードバックの誤解を緩和する。 3つのインストラクションフォローと数学的ベンチマークの実験は、ProgCoが効果的な自己補正を実現し、実際のプログラムツールと組み合わせることでパフォーマンスをさらに向上させることができることを示している。

関連論文リスト

PAG: Multi-Turn Reinforced LLM Self-Correction with Policy as Generative Verifier [18.771754895027616]
Policy as Generative Verifier (PAG) は、政策と検証役を交互に交互に行うことで、大規模言語モデルに自己修正の権限を与えるフレームワークである。モデル崩壊を緩和し、推論能力と検証能力の両方を共同で強化する。
論文参考訳（メタデータ） (2025-06-12T06:59:35Z)
Can Large Reasoning Models Self-Train? [58.953117118687096]
大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-05-27T17:16:00Z)
Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文参考訳（メタデータ） (2025-05-19T17:59:31Z)
Self-Corrective Task Planning by Inverse Prompting with Large Language Models [9.283971287618261]
InversePromptは,新しい自己修正型タスクプランニング手法である。提案手法は、明確な解釈可能なフィードバックを提供するための推論ステップを組み込んだものである。ベンチマークデータセットの結果は、既存のLCMベースのタスク計画手法よりも平均16.3%高い成功率を示している。
論文参考訳（メタデータ） (2025-03-10T13:35:51Z)
Self-rewarding correction for mathematical reasoning [19.480508580498103]
我々は,大規模言語モデル(LLM)の自己回帰的推論について研究する。 LLMは、ステップバイステップの推論を同時に生成し、外部からのフィードバックを伴わない推論時間における出力の正しさを評価する。本稿では,自己生成データのみを用いて自己回帰推論モデルを構築するための2段階のアルゴリズムフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-26T23:01:16Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文参考訳（メタデータ） (2025-02-20T13:50:02Z)
Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文参考訳（メタデータ） (2025-01-28T15:41:54Z)
Enhancing Relation Extraction via Supervised Rationale Verification and Feedback [12.687458877141934]
本稿では,関係抽出のための新しいフィードバックフレームワークを提案する。合理性を検証するための合理性スーパーバイザを提供し、初期予測を正すためのフィードバックとして再選択されたデモを提供する。提案手法は既存手法よりも大幅に優れている。
論文参考訳（メタデータ） (2024-12-10T08:18:29Z)
Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文参考訳（メタデータ） (2024-11-25T17:11:54Z)
Self-Correction is More than Refinement: A Learning Framework for Visual and Language Reasoning Tasks [43.96835245022083]
モデルにアウトプットを洗練させる自己補正は、この問題に対する有望な解決策である。本研究では,視覚言語モデルの推論および微調整段階における自己補正能力について検討した。
論文参考訳（メタデータ） (2024-10-05T06:28:54Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
RePair: Automated Program Repair with Process-based Feedback [28.017321930042694]
本稿では,プロセスの監督とフィードバックによって,小規模言語モデル(LM)が優れたパフォーマンスを実現する方法を示す。我々は、批評家として機能する報酬モデルを開発し、微調整されたLMの行動に対するフィードバックを提供する。その結果, プロセスベースでは, より大きな結果に基づく生成方法よりも, クローズドソースの大規模LMの性能にほぼ匹敵する結果が得られた。
論文参考訳（メタデータ） (2024-08-21T02:53:23Z)
Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文参考訳（メタデータ） (2024-04-26T03:41:28Z)
CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing [139.77117915309023]
CRITICは、大規模な言語モデルに対して、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と修正を可能にする。自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを証明している。
論文参考訳（メタデータ） (2023-05-19T15:19:44Z)
Learning from Self-Sampled Correct and Partially-Correct Programs [96.66452896657991]
そこで本研究では,モデルが学習中にサンプリングを行い,自己サンプリングされた完全正当プログラムと部分正当プログラムの両方から学習することを提案する。自己サンプリング型プログラムと部分修正型プログラムを併用することで,学習とサンプリングプロセスのガイドに役立てることができることを示す。提案手法は,MLEを用いた単一の参照プログラムからの学習と比較して,パス@kの性能を3.1%から12.3%向上させる。
論文参考訳（メタデータ） (2022-05-28T03:31:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。