論文の概要: Bias and Error Mitigation in Software-Generated Data: An Advanced Search
and Optimization Framework Leveraging Generative Code Models
- arxiv url: http://arxiv.org/abs/2310.11546v1
- Date: Tue, 17 Oct 2023 19:31:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 12:19:26.998630
- Title: Bias and Error Mitigation in Software-Generated Data: An Advanced Search
and Optimization Framework Leveraging Generative Code Models
- Title(参考訳): ソフトウェア生成データのバイアスとエラー軽減:生成コードモデルを活用する高度な検索と最適化フレームワーク
- Authors: Ernesto Giralt Hern\'andez
- Abstract要約: 本稿では,従来のバージョンから誤りやバイアスを修正可能な最適なソースコードの生成と選択を目的とした,高度な検索・最適化フレームワークを提案する。
このフレームワークを同じソフトウェアシステムに複数回適用すれば、出力結果の品質が漸進的に向上するでしょう。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data generation and analysis is a fundamental aspect of many industries and
disciplines, from strategic decision making in business to research in the
physical and social sciences. However, data generated using software and
algorithms can be subject to biases and errors. These can be due to problems
with the original software, default settings that do not align with the
specific needs of the situation, or even deeper problems with the underlying
theories and models. This paper proposes an advanced search and optimization
framework aimed at generating and choosing optimal source code capable of
correcting errors and biases from previous versions to address typical problems
in software systems specializing in data analysis and generation, especially
those in the corporate and data science world. Applying this framework multiple
times on the same software system would incrementally improve the quality of
the output results. It uses Solomonoff Induction as a sound theoretical basis,
extending it with Kolmogorov Conditional Complexity, a novel adaptation, to
evaluate a set of candidate programs. We propose the use of generative models
for the creation of this set of programs, with special emphasis on the
capabilities of Large Language Models (LLMs) to generate high quality code.
- Abstract(参考訳): データ生成と分析は、ビジネスにおける戦略的意思決定から、物理科学や社会科学の研究まで、多くの産業や分野の基本的な側面である。
しかし、ソフトウェアとアルゴリズムを使って生成されたデータは、バイアスやエラーを受けやすい。
これらは、オリジナルのソフトウェアの問題や、状況の特定のニーズに合致しないデフォルト設定、あるいは基礎となる理論やモデルに関するより深い問題による可能性がある。
本稿では,データ解析と生成を専門とするソフトウェアシステムにおいて,特に企業やデータサイエンスの世界において,エラーやバイアスを修正可能な最適なソースコードの生成と選択を目的とした,高度な検索・最適化フレームワークを提案する。
このフレームワークを同じソフトウェアシステムに複数回適用すると、出力結果の品質が徐々に向上します。
ソロモノフ誘導を音理論の基礎として使用し、新しい適応であるコルモゴロフ条件複雑性で拡張して、候補プログラムのセットを評価する。
本稿では,高品質なコードを生成するための大規模言語モデル(llm)の機能に着目し,このプログラムの作成に生成モデルを用いることを提案する。
関連論文リスト
- Chain-of-Programming (CoP) : Empowering Large Language Models for Geospatial Code Generation [2.6026969939746705]
本稿では,コード生成プロセスを5段階に分解するプログラミングフレームワークを提案する。
このフレームワークには、共有情報プール、知識ベース検索、ユーザフィードバック機構が含まれている。
生成されたコードの論理的明確性、構文的正確性、実行可能性を大幅に改善する。
論文 参考訳(メタデータ) (2024-11-16T09:20:35Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - ORLM: A Customizable Framework in Training Large Models for Automated Optimization Modeling [15.673219028826173]
本稿では,OR-Instruct という,最適化モデル問題のための半自動データ合成フレームワークを提案する。
我々は、70億のパラメータ(ORLM)を持つ様々なオープンソースのLDMを訓練する。
結果として得られたモデルは、NL4OPT、MAMO、IndustrialORベンチマークにまたがって最先端のパフォーマンスを達成し、大幅な最適化モデリング能力を示す。
論文 参考訳(メタデータ) (2024-05-28T01:55:35Z) - Investigating Reproducibility in Deep Learning-Based Software Fault
Prediction [16.25827159504845]
ますます複雑な機械学習モデルが急速に採用されるようになると、学者が文献で報告される結果を再現することがますます困難になる。
特に、適用されたディープラーニングモデルと評価方法論が適切に文書化されていない場合と、コードとデータが共有されていない場合である。
我々は,2019年から2022年にかけて,トップレベルのソフトウェアエンジニアリングカンファレンスにおいて,現在の文献を体系的にレビューし,56件の研究論文のレベルを検討した。
論文 参考訳(メタデータ) (2024-02-08T13:00:18Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Applications of Nature-Inspired Metaheuristic Algorithms for Tackling Optimization Problems Across Disciplines [12.664160352147293]
本稿では,自然に着想を得たメタヒューリスティックアルゴリズムの有用性を示す。
本研究の主な目的は,CSO-MAのようなメタヒューリスティックなアルゴリズムが,統計学における様々な種類の最適化問題に取り組むのに効率的であることを示すことである。
論文 参考訳(メタデータ) (2023-08-08T16:41:33Z) - PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels [59.66777287810985]
プライバシとユーティリティのための情報理論スコアを導入し、不誠実なユーザの平均パフォーマンスを定量化する。
次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。
論文 参考訳(メタデータ) (2023-03-31T18:03:53Z) - SimSCOOD: Systematic Analysis of Out-of-Distribution Generalization in
Fine-tuned Source Code Models [58.78043959556283]
本研究は,Low-Rank Adaptation (LoRA)ファインチューニング手法を含む,異なる微調整手法によるモデルの挙動について検討する。
解析の結果、LoRAファインチューニングは様々なシナリオにおけるフルファインチューニングよりも、OODの一般化性能が大幅に向上していることが判明した。
論文 参考訳(メタデータ) (2022-10-10T16:07:24Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Offline Model-Based Optimization via Normalized Maximum Likelihood
Estimation [101.22379613810881]
データ駆動最適化の問題を検討し、一定の点セットでクエリのみを与えられた関数を最大化する必要がある。
この問題は、関数評価が複雑で高価なプロセスである多くの領域に現れる。
我々は,提案手法を高容量ニューラルネットワークモデルに拡張可能なトラクタブル近似を提案する。
論文 参考訳(メタデータ) (2021-02-16T06:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。