Fugu-MT 論文翻訳(概要): ACES: generating diverse programming puzzles with autotelic language models and semantic descriptors

論文の概要: ACES: generating diverse programming puzzles with autotelic language models and semantic descriptors

arxiv url: http://arxiv.org/abs/2310.10692v1
Date: Sun, 15 Oct 2023 14:57:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 19:46:37.683463
Title: ACES: generating diverse programming puzzles with autotelic language models and semantic descriptors
Title（参考訳）: ACES: オートテリック言語モデルとセマンティック記述子による多様なプログラミングパズルの生成
Authors: Julien Pourcel, C\'edric Colas, Pierre-Yves Oudeyer, Laetitia Teodorescu
Abstract要約: ピソン計画パズルのオープンエンド空間の文脈における自動問題生成について検討する。 ACESでは、セマンティック記述子を活用して興味ある多様性を直接最適化する、新しいオートテリック生成手法を導入する。我々は,ACESが,様々な多様性指標で測定された既存の多様性最大化アルゴリズムよりも,パズルの多様性に富むことを示した。
参考スコア（独自算出の注目度）: 21.26118096276161
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Finding and selecting new and interesting problems to solve is at the heart of curiosity, science and innovation. We here study automated problem generation in the context of the open-ended space of python programming puzzles. Existing generative models often aim at modeling a reference distribution without any explicit diversity optimization. Other methods explicitly optimizing for diversity do so either in limited hand-coded representation spaces or in uninterpretable learned embedding spaces that may not align with human perceptions of interesting variations. With ACES (Autotelic Code Exploration via Semantic descriptors), we introduce a new autotelic generation method that leverages semantic descriptors produced by a large language model (LLM) to directly optimize for interesting diversity, as well as few-shot-based generation. Each puzzle is labeled along 10 dimensions, each capturing a programming skill required to solve it. ACES generates and pursues novel and feasible goals to explore that abstract semantic space, slowly discovering a diversity of solvable programming puzzles in any given run. Across a set of experiments, we show that ACES discovers a richer diversity of puzzles than existing diversity-maximizing algorithms as measured across a range of diversity metrics. We further study whether and in which conditions this diversity can translate into the successful training of puzzle solving models.
Abstract（参考訳）: 解決すべき新しい興味深い問題の発見と選択は好奇心、科学、イノベーションの中心にある。ここでは、ピソンプログラミングパズルのオープンエンド空間の文脈における自動問題生成について検討する。既存の生成モデルはしばしば、明示的な多様性の最適化なしに参照分布をモデル化することを目的としている。多様性を明示的に最適化する他の方法は、限られた手符号化表現空間でも、興味深いバリエーションの人間の知覚と一致しないような解釈不能な埋め込み空間でもそうである。 ACES(Autotelic Code Exploration via Semantic Descriptors)では,大きな言語モデル(LLM)が生成するセマンティック記述子を利用して,興味ある多様性を直接最適化し,少数ショットベースの生成を行う。各パズルは10次元にラベル付けされ、それぞれがそれを解くのに必要なプログラミングスキルをキャプチャする。 ACESは、抽象的なセマンティック空間を探索するために、新しく実現可能な目標を生成し、追求する。一連の実験を通じて, acesは, 既存の多様性を最大化するアルゴリズムよりも, 多様なパズルを発見できることを示した。さらに,この多様性がパズル解法モデルの学習に応用できるかどうかについても検討した。

関連論文リスト

Knowledge Augmented Complex Problem Solving with Large Language Models: A Survey [48.53273952814492]
大規模言語モデル(LLM)は、様々なドメインにまたがる複雑な問題に対処できる強力なツールとして登場した。 LLMを現実世界の問題解決に適用することは、多段階推論、ドメイン知識の統合、結果検証など、重大な課題を提示します。
論文参考訳（メタデータ） (2025-05-06T10:53:58Z)
BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。 4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2024-10-05T09:27:52Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
MathOdyssey: Benchmarking Mathematical Problem-Solving Skills in Large Language Models Using Odyssey Math Data [20.31528845718877]
大規模言語モデル(LLM)は、非常に高度な自然言語理解を持ち、強力な問題解決能力を示した。本稿では,新たに開発された"MathOdyssey"データセットを用いて,LLMの数学的問題解決能力について検討する。
論文参考訳（メタデータ） (2024-06-26T13:02:35Z)
PECC: Problem Extraction and Coding Challenges [3.287942619833188]
PECCは、Advent Of Code(AoC)の課題とProject Eulerから派生した、新しいベンチマークである。従来のベンチマークとは異なり、PECCは物語に埋め込まれた問題を解釈し、要求を抽出し、コードを生成するためにLCMを必要とする。結果は、ユーラー数に基づく部分集合において、物語的問題と中立的問題の間に様々なモデル性能を示す。
論文参考訳（メタデータ） (2024-04-29T15:02:14Z)
Distilling Algorithmic Reasoning from LLMs via Explaining Solution Programs [2.3020018305241337]
大きな言語モデルの推論能力を改善する効果的な方法として、明確な推論経路を蒸留する手法が登場している。本稿では, LLM から推論能力を抽出する手法を提案する。提案実験は,ReasonerがCoderによるプログラム実装をより効果的にガイドできることを示す。
論文参考訳（メタデータ） (2024-04-11T22:19:50Z)
MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文参考訳（メタデータ） (2023-11-16T08:52:27Z)
SEGO: Sequential Subgoal Optimization for Mathematical Problem-Solving [64.38649623473626]
大規模言語モデル(LLM)は人工知能の大幅な進歩を導いた。数学的問題を解く能力を高めるために,textbfSEquential subtextbfGoal textbfOptimization (SEGO) という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-19T17:56:40Z)
Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models [62.96551299003463]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。 TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。 TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文参考訳（メタデータ） (2023-10-06T01:40:09Z)
Exploring the Robustness of Large Language Models for Solving Programming Problems [15.80687717725775]
我々は、ソースコード生成のためのいくつかの人気のある大規模言語モデル(LLM)の堅牢性を理解するために実験を行う。以上の結果から,CodeGenとCodexは問題記述の表面的な修正に敏感であり,コード生成性能に大きな影響を及ぼすことが示された。 InstructGPT(英語版)やChatGPT(英語版)のような最先端のSOTA(英語版)モデルは、表面的な修正に対して高い堅牢性を示し、プログラミング問題の解決に優れた能力を持っている。
論文参考訳（メタデータ） (2023-06-26T10:48:50Z)
Competition-Level Code Generation with AlphaCode [74.87216298566942]
より深い推論を必要とする問題に対する新しいソリューションを作成することができるコード生成システムであるAlphaCodeを紹介する。 Codeforcesプラットフォームにおける最近のプログラミングコンペティションのシミュレーション評価において、AlphaCodeは平均54.3%のランキングを達成した。
論文参考訳（メタデータ） (2022-02-08T23:16:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。