Fugu-MT 論文翻訳(概要): CodeIt: Self-Improving Language Models with Prioritized Hindsight Replay

論文の概要: CodeIt: Self-Improving Language Models with Prioritized Hindsight Replay

arxiv url: http://arxiv.org/abs/2402.04858v1
Date: Wed, 7 Feb 2024 13:55:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 15:16:38.547349
Title: CodeIt: Self-Improving Language Models with Prioritized Hindsight Replay
Title（参考訳）: codeit: 後見を優先した自己改善型言語モデル
Authors: Natasha Butt, Blazej Manczak, Auke Wiggers, Corrado Rainone, David Zhang, Micha\"el Defferrard, Taco Cohen
Abstract要約: コードイット(Code It)と呼ばれる,言語モデルによる自己改善のための新しい,スケーラブルな手法を提案する。本手法は,1)プログラムのサンプリングと後向きのレバーベリング,および2)優先された体験リプレイから学習する。 CodeItをARCデータセットに適用することにより、事前トレーニングとデータ拡張とともに、優先順位付けされた後視リプレイがタスク間の一般化を成功させることを示す。
参考スコア（独自算出の注目度）: 23.013925134175352
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models are increasingly solving tasks that are commonly believed to require human-level reasoning ability. However, these models still perform very poorly on benchmarks of general intelligence such as the Abstraction and Reasoning Corpus (ARC). In this paper, we approach ARC as a programming-by-examples problem, and introduce a novel and scalable method for language model self-improvement called Code Iteration (CodeIt). Our method iterates between 1) program sampling and hindsight relabeling, and 2) learning from prioritized experience replay. By relabeling the goal of an episode (i.e., the target program output given input) to the realized output produced by the sampled program, our method effectively deals with the extreme sparsity of rewards in program synthesis. Applying CodeIt to the ARC dataset, we demonstrate that prioritized hindsight replay, along with pre-training and data-augmentation, leads to successful inter-task generalization. CodeIt is the first neuro-symbolic approach that scales to the full ARC evaluation dataset. Our method solves 15% of ARC evaluation tasks, achieving state-of-the-art performance and outperforming existing neural and symbolic baselines.
Abstract（参考訳）: 大規模な言語モデルは、人間レベルの推論能力を必要とすると一般的に信じられているタスクをますます解決している。しかし、これらのモデルは、抽象および推論コーパス(arc)のような一般的な知性のベンチマークでは、依然として非常に貧弱である。本稿では,プログラミング・バイ・サンプル問題としてARCにアプローチし,コードイテレーション(Code It)と呼ばれる,言語モデルの自己改善のための新しい,スケーラブルな手法を提案する。私たちの方法は間を繰り返す 1)プログラムサンプリング及び後見リラベリング、及び 2)優先経験リプレイから学ぶこと。本手法は,実演の目標(すなわち,入力された対象プログラム出力)をサンプルプログラムが生成した実演出力にレバレッジすることにより,プログラム合成における報酬の極端な分散を効果的に処理する。 CodeItをARCデータセットに適用することにより、事前トレーニングとデータ拡張とともに、優先順位付けされた後視リプレイがタスク間の一般化を成功させることを示す。 CodeItは完全なARC評価データセットにスケールする最初のニューロシンボリックアプローチである。本手法はarc評価タスクの15%を解決し,最先端の性能を実現し,既存のニューラルベースラインやシンボリックベースラインを上回っている。

関連論文リスト

ARC-GEN: A Mimetic Procedural Benchmark Generator for the Abstraction and Reasoning Corpus [3.553493344868413]
本稿では,ARC-AGIトレーニングデータセットの拡張を目的としたオープンソースプロシージャジェネレータであるARC-GENを紹介する。これまでの取り組みとは異なり、我々のジェネレータは(全4つのタスクをカバーしている)徹底的かつ緩和的です。また、このジェネレータを用いて、2025年のGoogle Code Golf Championshipに応募したプログラムの正当性を検証するための静的ベンチマークスイートの確立についても論じる。
論文参考訳（メタデータ） (2025-10-31T18:10:05Z)
OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique [59.18475981916166]
OpenCodeReasoning-IIは、250万の質問解決批判三部作からなるデータセットである(約35万のユニークなプログラミング質問)。本研究では,2段階の教師付き微調整戦略を採用する。第1段階はコード生成のための微調整に焦点を当て,第2段階はコード生成と批判の両方のためのモデルの共同トレーニングを行う。特に,コード生成と批判モデルの統合は,競争力のある符号化性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-07-11T23:35:54Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis [6.8081984950459]
既存の評価プロトコルは、静的なサンプルセットとホールドアウトテストに依存しており、合成された関数が正しくない場合にフィードバックを提供する。エージェントが隠れたターゲット関数と対話する新しい評価フレームワークであるCodeARCを提案する。 1114の関数を特徴とする汎用帰納的プログラム合成のための,最初の大規模ベンチマークを構築した。
論文参考訳（メタデータ） (2025-03-29T16:50:39Z)
Intelligence Analysis of Language Models [0.0]
本研究では,Large Language Models (LLMs) の Abstraction and Reasoning Corpus (ARC) データセットに対する有効性を検証する。このデータセットは、抽象推論能力をテストするための代表的なベンチマークとして機能する。モデル性能向上におけるChain-of-Thought(CoT)手法の適用性を検討した。
論文参考訳（メタデータ） (2024-07-20T13:48:16Z)
NAMER: Non-Autoregressive Modeling for Handwritten Mathematical Expression Recognition [80.22784377150465]
手書き数学的表現認識(HMER)は、文書理解における多種多様な応用のために、パターン認識において大きな注目を集めている。本稿では,HMERのためのボトムアップ非自己回帰モデリング手法であるNAMERを初めて構築する。 NAMERは、VAT(Visual Aware Tokenizer)とPGD(Parallel Graph)を備える。
論文参考訳（メタデータ） (2024-07-16T04:52:39Z)
Zero-Shot Code Representation Learning via Prompt Tuning [6.40875582886359]
コード表現を学習するためのゼロショットアプローチであるZecolerを提案する。 Zecolerは、事前訓練されたプログラミング言語モデルの上に構築されている。我々はZecolerを,コードクローン検出,コード検索,メソッド名予測,コード要約,コード生成を含む5つのコードインテリジェンスタスクで評価する。
論文参考訳（メタデータ） (2024-04-13T09:47:07Z)
Neural networks for abstraction and reasoning: Towards broad generalization in machines [3.165509887826658]
我々は Abstraction & Reasoning Corpus (ARC) を解くための新しいアプローチについて検討する。本研究では,DreamCoderのニューロシンボリック推論解法をARCに適用する。我々は、DreamCoderがARCタスクを解くことを可能にするPeARL(Perceptual Abstraction and Reasoning Language)言語を提示する。 ARCに関する今後の研究を容易にするために、arckit Pythonライブラリを公開しています。
論文参考訳（メタデータ） (2024-02-05T20:48:57Z)
LLMs and the Abstraction and Reasoning Corpus: Successes, Failures, and the Importance of Object-based Representations [50.431003245201644]
GPT-4 は 1D-ARC や単純な ARC サブセットのような非言語領域で完全に「推論」できないことを示す。本稿では,外部ツールから得られるオブジェクトベース表現を提案する。これにより,解決されたARCタスクのパフォーマンスがほぼ倍増し,より簡単な1D-ARC上でのほぼ完璧なスコアが得られた。
論文参考訳（メタデータ） (2023-05-26T16:32:17Z)
The Wisdom of Hindsight Makes Language Models Better Instruction Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文参考訳（メタデータ） (2023-02-10T12:16:38Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)
E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language Understanding and Generation [95.49128988683191]
シークエンス・ツー・シークエンス(seq2seq)学習は、大規模事前学習言語モデルにおいて一般的な方法である。本稿では,エンコーディング強化のseq2seq事前学習戦略,すなわちE2S2を提案する。 E2S2は、より効率的な自己教師付き情報をエンコーダに統合することで、Seq2seqモデルを改善する。
論文参考訳（メタデータ） (2022-05-30T08:25:36Z)
Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2021-11-04T04:39:02Z)
DeepSumm -- Deep Code Summaries using Neural Transformer Architecture [8.566457170664927]
我々はソースコード要約の課題を解決するためにニューラルネットワークを用いる。 2.1m以上のコメントとコードの教師付きサンプルで、トレーニング時間を50%以上短縮します。
論文参考訳（メタデータ） (2020-03-31T22:43:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。