論文の概要: Bias and Error Mitigation in Software-Generated Data: An Advanced Search
and Optimization Framework Leveraging Generative Code Models
- arxiv url: http://arxiv.org/abs/2310.11546v1
- Date: Tue, 17 Oct 2023 19:31:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 12:19:26.998630
- Title: Bias and Error Mitigation in Software-Generated Data: An Advanced Search
and Optimization Framework Leveraging Generative Code Models
- Title(参考訳): ソフトウェア生成データのバイアスとエラー軽減:生成コードモデルを活用する高度な検索と最適化フレームワーク
- Authors: Ernesto Giralt Hern\'andez
- Abstract要約: 本稿では,従来のバージョンから誤りやバイアスを修正可能な最適なソースコードの生成と選択を目的とした,高度な検索・最適化フレームワークを提案する。
このフレームワークを同じソフトウェアシステムに複数回適用すれば、出力結果の品質が漸進的に向上するでしょう。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data generation and analysis is a fundamental aspect of many industries and
disciplines, from strategic decision making in business to research in the
physical and social sciences. However, data generated using software and
algorithms can be subject to biases and errors. These can be due to problems
with the original software, default settings that do not align with the
specific needs of the situation, or even deeper problems with the underlying
theories and models. This paper proposes an advanced search and optimization
framework aimed at generating and choosing optimal source code capable of
correcting errors and biases from previous versions to address typical problems
in software systems specializing in data analysis and generation, especially
those in the corporate and data science world. Applying this framework multiple
times on the same software system would incrementally improve the quality of
the output results. It uses Solomonoff Induction as a sound theoretical basis,
extending it with Kolmogorov Conditional Complexity, a novel adaptation, to
evaluate a set of candidate programs. We propose the use of generative models
for the creation of this set of programs, with special emphasis on the
capabilities of Large Language Models (LLMs) to generate high quality code.
- Abstract(参考訳): データ生成と分析は、ビジネスにおける戦略的意思決定から、物理科学や社会科学の研究まで、多くの産業や分野の基本的な側面である。
しかし、ソフトウェアとアルゴリズムを使って生成されたデータは、バイアスやエラーを受けやすい。
これらは、オリジナルのソフトウェアの問題や、状況の特定のニーズに合致しないデフォルト設定、あるいは基礎となる理論やモデルに関するより深い問題による可能性がある。
本稿では,データ解析と生成を専門とするソフトウェアシステムにおいて,特に企業やデータサイエンスの世界において,エラーやバイアスを修正可能な最適なソースコードの生成と選択を目的とした,高度な検索・最適化フレームワークを提案する。
このフレームワークを同じソフトウェアシステムに複数回適用すると、出力結果の品質が徐々に向上します。
ソロモノフ誘導を音理論の基礎として使用し、新しい適応であるコルモゴロフ条件複雑性で拡張して、候補プログラムのセットを評価する。
本稿では,高品質なコードを生成するための大規模言語モデル(llm)の機能に着目し,このプログラムの作成に生成モデルを用いることを提案する。
関連論文リスト
- Focused-DPO: Enhancing Code Generation Through Focused Preference Optimization on Error-Prone Points [51.40935517552926]
Focused-DPOは、優先度最適化を重要なエラー発生箇所に向けることで、コード生成を強化するフレームワークである。
エラーを起こしやすい点に焦点を当てることで、Focused-DPOはモデル生成コードの正確性と機能を向上させる。
論文 参考訳(メタデータ) (2025-02-17T06:16:02Z) - Bridging LLM-Generated Code and Requirements: Reverse Generation technique and SBC Metric for Developer Insights [0.0]
本稿では,SBCスコアと呼ばれる新しいスコアリング機構を提案する。
これは、大規模言語モデルの自然言語生成能力を活用するリバースジェネレーション技術に基づいている。
直接コード解析とは異なり、我々のアプローチはAI生成コードからシステム要求を再構築し、元の仕様と比較する。
論文 参考訳(メタデータ) (2025-02-11T01:12:11Z) - An Empirical Study of Retrieval-Augmented Code Generation: Challenges and Opportunities [19.455889970335967]
コード生成は、自然言語の記述に従って、特定のプログラミング言語のコードスニペットを自動的に生成することを目的としている。
コード生成のための事前訓練されたモデルの1つの大きな課題は、自然言語要求とソースコードのセマンティックギャップである。
Retrieval-augmented frameworkは、要求を理解し、生成プロセスのガイダンスを提供するために利用することができる。
論文 参考訳(メタデータ) (2025-01-23T15:17:51Z) - SDPERL: A Framework for Software Defect Prediction Using Ensemble Feature Extraction and Reinforcement Learning [0.0]
本稿では,ソフトウェア欠陥予測のための革新的なフレームワークを提案する。
アンサンブル特徴抽出と強化学習(RL)に基づく特徴選択を組み合わせる。
この作業は、ファイルレベルの粒度でこの問題に対処する最近の取り組みの1つだ、と我々は主張する。
論文 参考訳(メタデータ) (2024-12-10T21:16:05Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Investigating Reproducibility in Deep Learning-Based Software Fault
Prediction [16.25827159504845]
ますます複雑な機械学習モデルが急速に採用されるようになると、学者が文献で報告される結果を再現することがますます困難になる。
特に、適用されたディープラーニングモデルと評価方法論が適切に文書化されていない場合と、コードとデータが共有されていない場合である。
我々は,2019年から2022年にかけて,トップレベルのソフトウェアエンジニアリングカンファレンスにおいて,現在の文献を体系的にレビューし,56件の研究論文のレベルを検討した。
論文 参考訳(メタデータ) (2024-02-08T13:00:18Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Applications of Nature-Inspired Metaheuristic Algorithms for Tackling Optimization Problems Across Disciplines [12.664160352147293]
本稿では,自然に着想を得たメタヒューリスティックアルゴリズムの有用性を示す。
本研究の主な目的は,CSO-MAのようなメタヒューリスティックなアルゴリズムが,統計学における様々な種類の最適化問題に取り組むのに効率的であることを示すことである。
論文 参考訳(メタデータ) (2023-08-08T16:41:33Z) - PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels [59.66777287810985]
プライバシとユーティリティのための情報理論スコアを導入し、不誠実なユーザの平均パフォーマンスを定量化する。
次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。
論文 参考訳(メタデータ) (2023-03-31T18:03:53Z) - SimSCOOD: Systematic Analysis of Out-of-Distribution Generalization in
Fine-tuned Source Code Models [58.78043959556283]
本研究は,Low-Rank Adaptation (LoRA)ファインチューニング手法を含む,異なる微調整手法によるモデルの挙動について検討する。
解析の結果、LoRAファインチューニングは様々なシナリオにおけるフルファインチューニングよりも、OODの一般化性能が大幅に向上していることが判明した。
論文 参考訳(メタデータ) (2022-10-10T16:07:24Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。