論文の概要: Bias and Error Mitigation in Software-Generated Data: An Advanced Search
and Optimization Framework Leveraging Generative Code Models
- arxiv url: http://arxiv.org/abs/2310.11546v1
- Date: Tue, 17 Oct 2023 19:31:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 12:19:26.998630
- Title: Bias and Error Mitigation in Software-Generated Data: An Advanced Search
and Optimization Framework Leveraging Generative Code Models
- Title(参考訳): ソフトウェア生成データのバイアスとエラー軽減:生成コードモデルを活用する高度な検索と最適化フレームワーク
- Authors: Ernesto Giralt Hern\'andez
- Abstract要約: 本稿では,従来のバージョンから誤りやバイアスを修正可能な最適なソースコードの生成と選択を目的とした,高度な検索・最適化フレームワークを提案する。
このフレームワークを同じソフトウェアシステムに複数回適用すれば、出力結果の品質が漸進的に向上するでしょう。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data generation and analysis is a fundamental aspect of many industries and
disciplines, from strategic decision making in business to research in the
physical and social sciences. However, data generated using software and
algorithms can be subject to biases and errors. These can be due to problems
with the original software, default settings that do not align with the
specific needs of the situation, or even deeper problems with the underlying
theories and models. This paper proposes an advanced search and optimization
framework aimed at generating and choosing optimal source code capable of
correcting errors and biases from previous versions to address typical problems
in software systems specializing in data analysis and generation, especially
those in the corporate and data science world. Applying this framework multiple
times on the same software system would incrementally improve the quality of
the output results. It uses Solomonoff Induction as a sound theoretical basis,
extending it with Kolmogorov Conditional Complexity, a novel adaptation, to
evaluate a set of candidate programs. We propose the use of generative models
for the creation of this set of programs, with special emphasis on the
capabilities of Large Language Models (LLMs) to generate high quality code.
- Abstract(参考訳): データ生成と分析は、ビジネスにおける戦略的意思決定から、物理科学や社会科学の研究まで、多くの産業や分野の基本的な側面である。
しかし、ソフトウェアとアルゴリズムを使って生成されたデータは、バイアスやエラーを受けやすい。
これらは、オリジナルのソフトウェアの問題や、状況の特定のニーズに合致しないデフォルト設定、あるいは基礎となる理論やモデルに関するより深い問題による可能性がある。
本稿では,データ解析と生成を専門とするソフトウェアシステムにおいて,特に企業やデータサイエンスの世界において,エラーやバイアスを修正可能な最適なソースコードの生成と選択を目的とした,高度な検索・最適化フレームワークを提案する。
このフレームワークを同じソフトウェアシステムに複数回適用すると、出力結果の品質が徐々に向上します。
ソロモノフ誘導を音理論の基礎として使用し、新しい適応であるコルモゴロフ条件複雑性で拡張して、候補プログラムのセットを評価する。
本稿では,高品質なコードを生成するための大規模言語モデル(llm)の機能に着目し,このプログラムの作成に生成モデルを用いることを提案する。
関連論文リスト
- Investigating Reproducibility in Deep Learning-Based Software Fault
Prediction [16.25827159504845]
ますます複雑な機械学習モデルが急速に採用されるようになると、学者が文献で報告される結果を再現することがますます困難になる。
特に、適用されたディープラーニングモデルと評価方法論が適切に文書化されていない場合と、コードとデータが共有されていない場合である。
我々は,2019年から2022年にかけて,トップレベルのソフトウェアエンジニアリングカンファレンスにおいて,現在の文献を体系的にレビューし,56件の研究論文のレベルを検討した。
論文 参考訳(メタデータ) (2024-02-08T13:00:18Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Rethinking and Benchmarking Predict-then-Optimize Paradigm for
Combinatorial Optimization Problems [62.25108152764568]
多くのWebアプリケーションは、エネルギーコストを考慮したスケジューリング、Web広告の予算配分、ソーシャルネットワークでのグラフマッチングなど、最適化問題の解決に頼っている。
統一システムにおける予測と意思決定の性能について考察する。
我々は、現在のアプローチを包括的に分類し、既存の実験シナリオを統合する。
論文 参考訳(メタデータ) (2023-11-13T13:19:34Z) - Resolving the Imbalance Issue in Hierarchical Disciplinary Topic
Inference via LLM-based Data Augmentation [5.98277339029019]
本研究では、大規模言語モデル(Llama V1)をデータジェネレータとして活用し、複雑な学際階層に分類される研究提案を拡大する。
本実験は, 生成したデータの有効性を実証し, 上記の課題に効果的に対処できることを実証した。
論文 参考訳(メタデータ) (2023-10-09T00:45:20Z) - PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels [59.66777287810985]
プライバシとユーティリティのための情報理論スコアを導入し、不誠実なユーザの平均パフォーマンスを定量化する。
次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。
論文 参考訳(メタデータ) (2023-03-31T18:03:53Z) - SimSCOOD: Systematic Analysis of Out-of-Distribution Generalization in
Fine-tuned Source Code Models [58.78043959556283]
本研究は,Low-Rank Adaptation (LoRA)ファインチューニング手法を含む,異なる微調整手法によるモデルの挙動について検討する。
解析の結果、LoRAファインチューニングは様々なシナリオにおけるフルファインチューニングよりも、OODの一般化性能が大幅に向上していることが判明した。
論文 参考訳(メタデータ) (2022-10-10T16:07:24Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Detecting Requirements Smells With Deep Learning: Experiences,
Challenges and Future Work [9.44316959798363]
本研究の目的は,手動でラベル付きデータセットを作成し,アンサンブル学習,深層学習(DL),単語埋め込みや伝達学習といった手法を用いて一般化問題を克服することで,従来の作業を改善することである。
現在の調査結果は、データセットが不均衡であり、どのクラスをもっと追加すべきかを示している。
論文 参考訳(メタデータ) (2021-08-06T12:45:15Z) - Offline Model-Based Optimization via Normalized Maximum Likelihood
Estimation [101.22379613810881]
データ駆動最適化の問題を検討し、一定の点セットでクエリのみを与えられた関数を最大化する必要がある。
この問題は、関数評価が複雑で高価なプロセスである多くの領域に現れる。
我々は,提案手法を高容量ニューラルネットワークモデルに拡張可能なトラクタブル近似を提案する。
論文 参考訳(メタデータ) (2021-02-16T06:04:27Z) - Software Defect Prediction Based On Deep Learning Models: Performance
Study [0.5735035463793008]
Stack Sparse Auto-Encoder(SSAE)とDeep Belief Network(DBN)の2つのディープラーニングモデルがデプロイされ、NASAデータセットを分類する。
実験の結果,十分なサンプルが得られたデータセットの精度が向上した。
論文 参考訳(メタデータ) (2020-04-02T06:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。