Fugu-MT 論文翻訳(概要): A Simple, Yet Effective Approach to Finding Biases in Code Generation

論文の概要: A Simple, Yet Effective Approach to Finding Biases in Code Generation

arxiv url: http://arxiv.org/abs/2211.00609v2
Date: Tue, 9 May 2023 14:47:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-10 16:15:53.618536
Title: A Simple, Yet Effective Approach to Finding Biases in Code Generation
Title（参考訳）: コード生成におけるバイアスを見つけるためのシンプルで効果的なアプローチ
Authors: Spyridon Mouselinos, Mateusz Malinowski, Henryk Michalewski
Abstract要約: この研究は、現在のコード生成システムが、彼らの大きな言語モデルバックボーンから受け継がれた望ましくないバイアスを示すことを示している。コーディング課題のモジュラー分解と解析を可能にする「影響ブロック」の概念を提案する。
参考スコア（独自算出の注目度）: 16.094062131137722
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recently, high-performing code generation systems based on large language models have surfaced. They are trained on massive corpora containing much more natural text than actual executable computer code. This work shows that current code generation systems exhibit undesired biases inherited from their large language model backbones, which can reduce the quality of the generated code under specific circumstances. To investigate the effect, we propose the "block of influence" concept, which enables a modular decomposition and analysis of the coding challenges. We introduce an automated intervention mechanism reminiscent of adversarial testing that exposes undesired biases through the failure modes of the models under test. Finally, we demonstrate how our framework can be used as a data transformation technique during fine-tuning, acting as a mitigation strategy for these biases.
Abstract（参考訳）: 近年,大規模言語モデルに基づく高性能コード生成システムが登場している。それらは、実際の実行可能なコンピュータコードよりもずっと自然なテキストを含む巨大なコーパスで訓練される。この研究によると、現在のコード生成システムは、大きな言語モデルのバックボーンから受け継がれた望ましくないバイアスを示しており、特定の状況下で生成されたコードの品質を低下させることができる。この効果を調べるために,モジュールの分解とコーディング課題の解析を可能にする「影響のブロック」の概念を提案する。テスト中のモデルの障害モードを通じて望ましくないバイアスを露呈する、敵対的テストを想起させる自動介入機構を導入する。最後に,これらのバイアスに対する緩和戦略として,微調整時のデータ変換手法として,我々のフレームワークをどのように活用できるかを実証する。

関連論文リスト

Code Fingerprints: Disentangled Attribution of LLM-Generated Code [7.515488307576106]
生成したコードに責任を負うソースLLMを決定することを目的とした,モデルレベルのコード属性の問題について検討する。本稿では、ソース非依存のセマンティック情報とソース-特異なスタイル表現を分離するDisentangled Code Attribution Network (DCAN)を提案する。 4つのプログラミング言語で広く使われている4つの大規模言語モデル(LLM)が生成するコードからなる,最初の大規模ベンチマークデータセットを構築した。
論文参考訳（メタデータ） (2026-03-04T15:58:36Z)
Taming Imperfect Process Verifiers: A Sampling Perspective on Backtracking [54.43083499412643]
言語モデルの生成能力をプロセス検証器と組み合わせたテストタイムアルゴリズムは、新しい推論能力を引き出すための有望なレバーを提供する。提案手法は, 理論的に根拠付きバックトラックを用いて, 検証誤差に対して, 確実な堅牢性を実現するための新しいプロセス誘導型テスト時間サンプリングアルゴリズムであるVGBを導入する。
論文参考訳（メタデータ） (2025-10-03T16:21:14Z)
Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。因果関係はこれらの課題を体系的に解決するための理想的な枠組みを提供します
論文参考訳（メタデータ） (2025-02-07T17:01:37Z)
An Empirical Study of Retrieval-Augmented Code Generation: Challenges and Opportunities [19.455889970335967]
コード生成は、自然言語の記述に従って、特定のプログラミング言語のコードスニペットを自動的に生成することを目的としている。コード生成のための事前訓練されたモデルの1つの大きな課題は、自然言語要求とソースコードのセマンティックギャップである。 Retrieval-augmented frameworkは、要求を理解し、生成プロセスのガイダンスを提供するために利用することができる。
論文参考訳（メタデータ） (2025-01-23T15:17:51Z)
Toward Exploring the Code Understanding Capabilities of Pre-trained Code Generation Models [12.959392500354223]
私たちは、事前訓練されたコード生成モデルからコード理解タスクへの知識の移行の先駆者です。 CL4Dはデコーダのみのモデルの表現能力を向上させるために設計された,コントラスト学習手法である。
論文参考訳（メタデータ） (2024-06-18T06:52:14Z)
Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文参考訳（メタデータ） (2024-02-02T22:19:15Z)
Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers [14.018844722021896]
機械および人為的なコードの特徴を特徴付ける特定のパターンについて検討する。本研究では,機械生成コード検出のための新しい手法であるTectCodeGPTを提案する。
論文参考訳（メタデータ） (2024-01-12T09:15:20Z)
Reverse-Engineering Decoding Strategies Given Blackbox Access to a Language Generation System [73.52878118434147]
テキスト生成に使用する復号法をリバースエンジニアリングする手法を提案する。どのようなデコード戦略が使われたかを検出する能力は、生成されたテキストを検出することに影響を及ぼす。
論文参考訳（メタデータ） (2023-09-09T18:19:47Z)
Robust Graph Representation Learning via Predictive Coding [46.22695915912123]
予測符号化は、当初脳の情報処理をモデル化するために開発されたメッセージパッシングフレームワークである。本研究では,予測符号化のメッセージパス規則に依存するモデルを構築する。提案したモデルは,帰納的タスクと帰納的タスクの両方において,標準的なモデルに匹敵する性能を示す。
論文参考訳（メタデータ） (2022-12-09T03:58:22Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)
On Adversarial Robustness of Synthetic Code Generation [1.2559148369195197]
本論文は, 逆数例の異なるクラスを通して, 有意なデータセットバイアスの存在を示す。バイアスを低減し,有効性を示すために,いくつかのデータセット拡張手法を提案する。
論文参考訳（メタデータ） (2021-06-22T09:37:48Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)
On the Transferability of Adversarial Attacksagainst Neural Text Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文参考訳（メタデータ） (2020-11-17T10:45:05Z)
Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文参考訳（メタデータ） (2020-09-16T06:53:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。