Fugu-MT 論文翻訳(概要): Bias and Error Mitigation in Software-Generated Data: An Advanced Search and Optimization Framework Leveraging Generative Code Models

論文の概要: Bias and Error Mitigation in Software-Generated Data: An Advanced Search and Optimization Framework Leveraging Generative Code Models

arxiv url: http://arxiv.org/abs/2310.11546v1
Date: Tue, 17 Oct 2023 19:31:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-19 12:19:26.998630
Title: Bias and Error Mitigation in Software-Generated Data: An Advanced Search and Optimization Framework Leveraging Generative Code Models
Title（参考訳）: ソフトウェア生成データのバイアスとエラー軽減:生成コードモデルを活用する高度な検索と最適化フレームワーク
Authors: Ernesto Giralt Hern\'andez
Abstract要約: 本稿では,従来のバージョンから誤りやバイアスを修正可能な最適なソースコードの生成と選択を目的とした,高度な検索・最適化フレームワークを提案する。このフレームワークを同じソフトウェアシステムに複数回適用すれば、出力結果の品質が漸進的に向上するでしょう。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data generation and analysis is a fundamental aspect of many industries and disciplines, from strategic decision making in business to research in the physical and social sciences. However, data generated using software and algorithms can be subject to biases and errors. These can be due to problems with the original software, default settings that do not align with the specific needs of the situation, or even deeper problems with the underlying theories and models. This paper proposes an advanced search and optimization framework aimed at generating and choosing optimal source code capable of correcting errors and biases from previous versions to address typical problems in software systems specializing in data analysis and generation, especially those in the corporate and data science world. Applying this framework multiple times on the same software system would incrementally improve the quality of the output results. It uses Solomonoff Induction as a sound theoretical basis, extending it with Kolmogorov Conditional Complexity, a novel adaptation, to evaluate a set of candidate programs. We propose the use of generative models for the creation of this set of programs, with special emphasis on the capabilities of Large Language Models (LLMs) to generate high quality code.
Abstract（参考訳）: データ生成と分析は、ビジネスにおける戦略的意思決定から、物理科学や社会科学の研究まで、多くの産業や分野の基本的な側面である。しかし、ソフトウェアとアルゴリズムを使って生成されたデータは、バイアスやエラーを受けやすい。これらは、オリジナルのソフトウェアの問題や、状況の特定のニーズに合致しないデフォルト設定、あるいは基礎となる理論やモデルに関するより深い問題による可能性がある。本稿では,データ解析と生成を専門とするソフトウェアシステムにおいて,特に企業やデータサイエンスの世界において,エラーやバイアスを修正可能な最適なソースコードの生成と選択を目的とした,高度な検索・最適化フレームワークを提案する。このフレームワークを同じソフトウェアシステムに複数回適用すると、出力結果の品質が徐々に向上します。ソロモノフ誘導を音理論の基礎として使用し、新しい適応であるコルモゴロフ条件複雑性で拡張して、候補プログラムのセットを評価する。本稿では,高品質なコードを生成するための大規模言語モデル(llm)の機能に着目し,このプログラムの作成に生成モデルを用いることを提案する。

関連論文リスト

Synthetic Code Surgery: Repairing Bugs and Vulnerabilities with LLMs and Synthetic Data [0.0]
本稿では,Large Language Models(LLMs)を用いた合成データ生成によるAPR(Automated Program repair)の向上手法を提案する。提案手法は, 合成試料生成と厳密な品質評価という2段階のプロセスを通じて, この制限に対処する。 VulRepairテストセットデータセットの実験評価では、完全予測率の統計的に有意な改善が見られた。
論文参考訳（メタデータ） (2025-05-12T09:14:20Z)
From Bugs to Benchmarks: A Comprehensive Survey of Software Defect Datasets [19.140541190998842]
ソフトウェア欠陥データセットは、ソフトウェアバグとその関連情報の集合である。長年にわたり、多くのソフトウェア欠陥データセットが開発され、コミュニティに豊富なリソースを提供してきた。この記事では、132のソフトウェア欠陥データセットを包括的に調査する。
論文参考訳（メタデータ） (2025-04-24T23:07:04Z)
Code Red! On the Harmfulness of Applying Off-the-shelf Large Language Models to Programming Tasks [12.242406234298443]
我々は、潜在的に有害なソフトウェアエンジニアリングシナリオの分類法を開発する。次に、この分類に基づいてプロンプトのデータセットを作成します。本稿では,モデルサイズ,アーキテクチャファミリー,アライメント戦略が有害なコンテンツを生成する傾向に与える影響について検討する。
論文参考訳（メタデータ） (2025-04-02T16:00:14Z)
Focused-DPO: Enhancing Code Generation Through Focused Preference Optimization on Error-Prone Points [51.40935517552926]
Focused-DPOは、優先度最適化を重要なエラー発生箇所に向けることで、コード生成を強化するフレームワークである。エラーを起こしやすい点に焦点を当てることで、Focused-DPOはモデル生成コードの正確性と機能を向上させる。
論文参考訳（メタデータ） (2025-02-17T06:16:02Z)
An Empirical Study of Retrieval-Augmented Code Generation: Challenges and Opportunities [19.455889970335967]
コード生成は、自然言語の記述に従って、特定のプログラミング言語のコードスニペットを自動的に生成することを目的としている。コード生成のための事前訓練されたモデルの1つの大きな課題は、自然言語要求とソースコードのセマンティックギャップである。 Retrieval-augmented frameworkは、要求を理解し、生成プロセスのガイダンスを提供するために利用することができる。
論文参考訳（メタデータ） (2025-01-23T15:17:51Z)
SDPERL: A Framework for Software Defect Prediction Using Ensemble Feature Extraction and Reinforcement Learning [0.0]
本稿では,ソフトウェア欠陥予測のための革新的なフレームワークを提案する。アンサンブル特徴抽出と強化学習(RL)に基づく特徴選択を組み合わせる。この作業は、ファイルレベルの粒度でこの問題に対処する最近の取り組みの1つだ、と我々は主張する。
論文参考訳（メタデータ） (2024-12-10T21:16:05Z)
Chain-of-Programming (CoP) : Empowering Large Language Models for Geospatial Code Generation [2.6026969939746705]
本稿では,コード生成プロセスを5段階に分解するプログラミングフレームワークを提案する。このフレームワークには、共有情報プール、知識ベース検索、ユーザフィードバック機構が含まれている。生成されたコードの論理的明確性、構文的正確性、実行可能性を大幅に改善する。
論文参考訳（メタデータ） (2024-11-16T09:20:35Z)
Self-Steering Optimization: Autonomous Preference Optimization for Large Language Models [79.84205827056907]
本稿では,高品質な嗜好データを自律的に生成するアルゴリズムであるセルフステアリング最適化(SSO$)を提案する。 $SSO$は、ポリシーモデル自体からデータジェネレータを構築するために、特別な最適化目標を採用しています。評価の結果,$SSO$は人選好アライメントと報酬最適化のベースラインを一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-22T16:04:03Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
ORLM: A Customizable Framework in Training Large Models for Automated Optimization Modeling [15.673219028826173]
本稿では,OR-Instruct という,最適化モデル問題のための半自動データ合成フレームワークを提案する。我々は、70億のパラメータ(ORLM)を持つ様々なオープンソースのLDMを訓練する。結果として得られたモデルは、NL4OPT、MAMO、IndustrialORベンチマークにまたがって最先端のパフォーマンスを達成し、大幅な最適化モデリング能力を示す。
論文参考訳（メタデータ） (2024-05-28T01:55:35Z)
Investigating Reproducibility in Deep Learning-Based Software Fault Prediction [16.25827159504845]
ますます複雑な機械学習モデルが急速に採用されるようになると、学者が文献で報告される結果を再現することがますます困難になる。特に、適用されたディープラーニングモデルと評価方法論が適切に文書化されていない場合と、コードとデータが共有されていない場合である。我々は,2019年から2022年にかけて,トップレベルのソフトウェアエンジニアリングカンファレンスにおいて,現在の文献を体系的にレビューし,56件の研究論文のレベルを検討した。
論文参考訳（メタデータ） (2024-02-08T13:00:18Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
Applications of Nature-Inspired Metaheuristic Algorithms for Tackling Optimization Problems Across Disciplines [12.664160352147293]
本稿では,自然に着想を得たメタヒューリスティックアルゴリズムの有用性を示す。本研究の主な目的は,CSO-MAのようなメタヒューリスティックなアルゴリズムが,統計学における様々な種類の最適化問題に取り組むのに効率的であることを示すことである。
論文参考訳（メタデータ） (2023-08-08T16:41:33Z)
PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels [59.66777287810985]
プライバシとユーティリティのための情報理論スコアを導入し、不誠実なユーザの平均パフォーマンスを定量化する。次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。
論文参考訳（メタデータ） (2023-03-31T18:03:53Z)
SimSCOOD: Systematic Analysis of Out-of-Distribution Generalization in Fine-tuned Source Code Models [58.78043959556283]
本研究は,Low-Rank Adaptation (LoRA)ファインチューニング手法を含む,異なる微調整手法によるモデルの挙動について検討する。解析の結果、LoRAファインチューニングは様々なシナリオにおけるフルファインチューニングよりも、OODの一般化性能が大幅に向上していることが判明した。
論文参考訳（メタデータ） (2022-10-10T16:07:24Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)
Offline Model-Based Optimization via Normalized Maximum Likelihood Estimation [101.22379613810881]
データ駆動最適化の問題を検討し、一定の点セットでクエリのみを与えられた関数を最大化する必要がある。この問題は、関数評価が複雑で高価なプロセスである多くの領域に現れる。我々は,提案手法を高容量ニューラルネットワークモデルに拡張可能なトラクタブル近似を提案する。
論文参考訳（メタデータ） (2021-02-16T06:04:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。