論文の概要: SCoGen: Scenario-Centric Graph-Based Synthesis of Real-World Code Problems
- arxiv url: http://arxiv.org/abs/2509.14281v1
- Date: Tue, 16 Sep 2025 12:52:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.912819
- Title: SCoGen: Scenario-Centric Graph-Based Synthesis of Real-World Code Problems
- Title(参考訳): SCoGen: シナリオ中心グラフに基づく実世界のコード問題の合成
- Authors: Xifeng Yao, Dongyu Lang, Wu Zhang, Xintong Guo, Huarui Xie, Yinhao Ni, Ping Liu, Guang Shen, Yi Bai, Dandan Tu, Changzheng Zhang,
- Abstract要約: 実世界のシナリオをエミュレートするコード問題を合成する新しいフレームワークを提案する。
このフレームワークは、ドメイン知識、ドメインスキル、コーディングスキルを体系的に統合する。
提案手法は,最先端のオープンソース大規模言語モデルよりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 6.798217798359233
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Significant advancements have been made in the capabilities of code large language models, leading to their rapid adoption and application across a wide range of domains. However, their further advancements are often constrained by the scarcity of real-world coding problems. To bridge this gap, we propose a novel framework for synthesizing code problems that emulate authentic real-world scenarios. This framework systematically integrates domain knowledge, domain skills, and coding skills, all of which are meticulously extracted from real-world programming-related datasets, including Stack Overflow and Kaggle. The extracted elements serve as the foundational building blocks for constructing code problems. To align the generated problems with practical applications, application scenarios are also mined from the aforementioned datasets. These scenarios are then utilized to construct a scenario-centric graph that interconnects domain knowledge, domain skills, and coding skills. Based on this structured representation, a sampling strategy on the graph is designed, which effectively controls the generation of a code problem with complexity and diversity, reflects real-world challenges. Experimental results demonstrate that the proposed method consistently achieves superior performance over state-of-the-art open-source large language models of varying sizes and functionalities, including both coders and general-purpose models, across a diverse set of real-world benchmarks.
- Abstract(参考訳): 大規模な言語モデルをコードする能力において重要な進歩が見られ、それが急速に採用され、広範囲のドメインにまたがるアプリケーションとなった。
しかし、それらのさらなる進歩は、現実のコーディング問題の不足によってしばしば制限される。
このギャップを埋めるために,実世界のシナリオをエミュレートするコード問題を合成する新しいフレームワークを提案する。
このフレームワークは、ドメイン知識、ドメインスキル、コーディングスキルを体系的に統合する。これらはすべて、Stack OverflowやKaggleなど、現実世界のプログラミング関連のデータセットから慎重に抽出される。
抽出された要素は、コード問題を構築するための基本的なビルディングブロックとして機能します。
生成された問題を実践的なアプリケーションと整合させるため、上記のデータセットからアプリケーションシナリオも抽出される。
これらのシナリオを使用して、ドメイン知識、ドメインスキル、コーディングスキルを相互接続するシナリオ中心のグラフを構築する。
この構造化された表現に基づいて、複雑性と多様性を持つコード問題の発生を効果的に制御するグラフ上のサンプリング戦略が設計されており、現実の課題を反映している。
実験により,提案手法は,多種多様な実世界のベンチマークを用いて,コーダや汎用モデルを含む,さまざまなサイズと機能を持つ最先端のオープンソース大規模言語モデルよりも優れた性能を実現することを示す。
関連論文リスト
- COGITAO: A Visual Reasoning Framework To Study Compositionality & Generalization [0.0]
COGITAOは視覚領域の合成と一般化を研究するためのフレームワークである。
グリッドのような環境でオブジェクトに一連の変換を適用するルールベースのタスクを構築する。
合成を調整可能な深さで28個の変換でサポートし、グリッドのパラメトリゼーションとオブジェクト特性を広範囲に制御する。
論文 参考訳(メタデータ) (2025-09-05T17:01:05Z) - ModelingAgent: Bridging LLMs and Mathematical Modeling for Real-World Challenges [72.19809898215857]
ModelingBenchは、様々な領域にわたる数学モデリングの競争から、現実に着想を得たオープンエンドの問題を特徴付ける新しいベンチマークである。
これらのタスクには、自然言語を形式的な数学的定式化に翻訳し、適切なツールを適用し、構造化された防御可能なレポートを生成する必要がある。
ツール使用をコーディネートするマルチエージェントフレームワークである ModelingAgent も紹介します。
論文 参考訳(メタデータ) (2025-05-21T03:33:23Z) - Synthetic Data Generation Using Large Language Models: Advances in Text and Code [0.0]
大規模言語モデル(LLM)は、自然言語とコードドメインの両方で合成トレーニングデータ生成を変換している。
我々は、プロンプトベースの生成、検索拡張パイプライン、反復的な自己精製といった重要なテクニックを強調した。
本稿では,生成テキストにおける事実的不正確性,文体的あるいは分布的リアリズムの不足,バイアス増幅のリスクなど,関連する課題について論じる。
論文 参考訳(メタデータ) (2025-03-18T08:34:03Z) - Chain-of-Programming (CoP) : Empowering Large Language Models for Geospatial Code Generation [2.6026969939746705]
本稿では,コード生成プロセスを5段階に分解するプログラミングフレームワークを提案する。
このフレームワークには、共有情報プール、知識ベース検索、ユーザフィードバック機構が含まれている。
生成されたコードの論理的明確性、構文的正確性、実行可能性を大幅に改善する。
論文 参考訳(メタデータ) (2024-11-16T09:20:35Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Multi-step Inference over Unstructured Data [2.169874047093392]
医療、法律、金融などの分野における高い意思決定タスクは、精度、包括性、論理的一貫性のレベルを必要とする。
これらの問題に対処するための,ニューロシンボリックAIプラットフォームを開発した。
このプラットフォームは、知識抽出とアライメントのための微調整LDMと、堅牢なシンボリック推論エンジンを統合している。
論文 参考訳(メタデータ) (2024-06-26T00:00:45Z) - Bridging Local Details and Global Context in Text-Attributed Graphs [62.522550655068336]
GraphBridgeは、コンテキストテキスト情報を活用することで、ローカルおよびグローバルな視点をブリッジするフレームワークである。
提案手法は最先端性能を実現し,グラフ対応トークン削減モジュールは効率を大幅に向上し,スケーラビリティの問題を解消する。
論文 参考訳(メタデータ) (2024-06-18T13:35:25Z) - CoCoST: Automatic Complex Code Generation with Online Searching and Correctness Testing [51.00909683314142]
大規模言語モデルは、自然言語記述を実行可能なコードに変換することによって、コード生成能力に革命をもたらした。
CoCoSTフレームワークは、オンライン検索によって複雑なコード生成を強化する。
CoCoSTはDS-1000とClassEvalデータセットの厳密な実験によって検証される。
論文 参考訳(メタデータ) (2024-03-20T13:33:55Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。