論文の概要: Defining ethically sourced code generation
- arxiv url: http://arxiv.org/abs/2507.19743v1
- Date: Sat, 26 Jul 2025 02:27:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.089488
- Title: Defining ethically sourced code generation
- Title(参考訳): 倫理的にソース化されたコード生成を定義する
- Authors: Zhuolin Xu, Chenglin Li, Qiushi Li, Shin Hwei Tan,
- Abstract要約: 本稿では、コード生成モデル開発に関わるすべてのプロセスを管理するために、ES-CodeGen(Ethically Sourced Code Generation)という新しい概念を紹介します。
ES-CodeGenの分類を構築するために、さまざまなドメインにまたがって803の論文を読み、AIベースのコード生成に特化しました。
その中には、StackデータセットからオプトアウトするためにGitHubイシューを提出した6人の開発者が含まれています。
- 参考スコア(独自算出の注目度): 16.525245724122268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several code generation models have been proposed to help reduce time and effort in solving software-related tasks. To ensure responsible AI, there are growing interests over various ethical issues (e.g., unclear licensing, privacy, fairness, and environment impact). These studies have the overarching goal of ensuring ethically sourced generation, which has gained growing attentions in speech synthesis and image generation. In this paper, we introduce the novel notion of Ethically Sourced Code Generation (ES-CodeGen) to refer to managing all processes involved in code generation model development from data collection to post-deployment via ethical and sustainable practices. To build a taxonomy of ES-CodeGen, we perform a two-phase literature review where we read 803 papers across various domains and specific to AI-based code generation. We identified 71 relevant papers with 10 initial dimensions of ES-CodeGen. To refine our dimensions and gain insights on consequences of ES-CodeGen, we surveyed 32 practitioners, which include six developers who submitted GitHub issues to opt-out from the Stack dataset (these impacted users have real-world experience of ethically sourcing issues in code generation models). The results lead to 11 dimensions of ES-CodeGen with a new dimension on code quality as practitioners have noted its importance. We also identified consequences, artifacts, and stages relevant to ES-CodeGen. Our post-survey reflection showed that most practitioners tend to ignore social-related dimensions despite their importance. Most practitioners either agreed or strongly agreed that our survey help improve their understanding of ES-CodeGen. Our study calls for attentions of various ethical issues towards ES-CodeGen.
- Abstract(参考訳): ソフトウェア関連の課題を解決するための時間と労力を削減するために、いくつかのコード生成モデルが提案されている。
責任あるAIを保証するため、さまざまな倫理的問題(例えば、不明確なライセンス、プライバシ、公正性、環境への影響)に対する関心が高まっている。
これらの研究は、音声合成や画像生成において注目を集めている倫理的源泉の確保という、包括的な目標を掲げている。
本稿では,倫理的かつ持続可能な実践を通じて,データ収集からデプロイ後まで,コード生成モデル開発に関わるすべてのプロセスを管理するために,ES-CodeGen(Ethically Sourced Code Generation)の概念を導入する。
ES-CodeGenの分類を構築するために、我々は2段階の文献レビューを行い、さまざまなドメインにまたがって803の論文を読み、AIベースのコード生成に特化しています。
ES-CodeGenの初期次元が10である71の関連論文を特定した。
そこでは、StackデータセットからGitHubイシューをオプトアウトするためにGitHubイシューを提出した6人の開発者が含まれていました(これらの影響を受けたユーザは、コード生成モデルにおいて倫理的にソーシングされたイシューを実世界で経験しています)。
その結果,ES-CodeGenの11次元がコード品質に新たな次元をもたらしている。
また、ES-CodeGenに関連する結果、成果物、ステージも特定しました。
調査後の考察では,ほとんどの実践者は,その重要性にもかかわらず社会的側面を無視する傾向にあった。
ほとんどの実践者は、ES-CodeGenの理解を深める上で、私たちの調査に同意するか、強く同意しています。
本研究はES-CodeGenに対する様々な倫理的問題に対する注意を喚起する。
関連論文リスト
- Building Software by Rolling the Dice: A Qualitative Study of Vibe Coding [15.145249560710377]
ビブ・コーダ"は、主にコードを書くのではなく、プロンプトを通じてソフトウェアを構築する。
ライブ・ストリーミング・コーディング・セッション7本と意見ビデオ13本を含む20本のバイブ・コーディング・ビデオについて理論的研究を行った。
ビブコーダーの中にはAIにほぼ完全に依存する者もいれば、生成された出力を調べて適応する者もいる。
論文 参考訳(メタデータ) (2025-12-27T00:38:37Z) - AI Code in the Wild: Measuring Security Risks and Ecosystem Shifts of AI-Generated Code in Modern Software [12.708926174194199]
野生におけるAI生成コード(AIGCode)の大規模な実証的研究について紹介する。
我々はAIGCodeと人書きコードとを区別するための高精度検出パイプラインとベンチマークを構築した。
これにより、コミット、ファイル、関数を人間/AI軸に沿ってラベル付けし、AIGCodeがプロジェクトや脆弱性ライフサイクルをどう移動するかを追跡することができます。
論文 参考訳(メタデータ) (2025-12-21T02:26:29Z) - From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。
コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。
一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文 参考訳(メタデータ) (2025-11-23T17:09:34Z) - A Survey of Vibe Coding with Large Language Models [93.88284590533242]
視覚符号化(Vibe Coding)は、開発者が成果観察を通じてAI生成の実装を検証する開発手法である。
変革の可能性にもかかわらず、この創発的パラダイムの有効性は未解明のままである。
この調査は、大規模な言語モデルによるVibe Codingの総合的かつ体系的なレビューを初めて提供する。
論文 参考訳(メタデータ) (2025-10-14T11:26:56Z) - The Impact of Generative AI on Code Expertise Models: An Exploratory Study [0.0]
本稿では、知識モデルとトラックファクターアルゴリズムがGenAIの利用によってどのように影響するかを探索分析する。
この結果から,GenAIが開発に深く統合されるにつれ,これらの指標の信頼性が低下する可能性が示唆された。
論文 参考訳(メタデータ) (2025-07-10T20:43:08Z) - Bridging LLM-Generated Code and Requirements: Reverse Generation technique and SBC Metric for Developer Insights [0.0]
本稿では,SBCスコアと呼ばれる新しいスコアリング機構を提案する。
これは、大規模言語モデルの自然言語生成能力を活用するリバースジェネレーション技術に基づいている。
直接コード解析とは異なり、我々のアプローチはAI生成コードからシステム要求を再構築し、元の仕様と比較する。
論文 参考訳(メタデータ) (2025-02-11T01:12:11Z) - Dear Diary: A randomized controlled trial of Generative AI coding tools in the workplace [2.5280615594444567]
ジェネレーティブAIコーディングツールは比較的新しいもので、開発者への影響は従来のコーディングメトリクスを超えて拡大している。
本研究の目的は、生成型AIツールに関する既存の信念、自己認識、そしてこれらのツールの定期的な使用がこれらの信念をどう変えるかを明らかにすることである。
その結果,ジェネレーティブなAIコーディングツールの導入と持続的使用は,これらのツールが有用かつ楽しいものであるという開発者の認識を著しく高めていることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-24T00:07:27Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - A Survey on Large Language Models for Code Generation [9.555952109820392]
大規模言語モデル(LLM)は、様々なコード関連のタスクで顕著な進歩を遂げています。
本調査は、総合的かつ最新の文献レビューを提供することで、学界と実践的発展のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-06-01T17:48:15Z) - A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond [84.95530356322621]
この調査は、コードインテリジェンスの発展に関する体系的なレビューを示す。
50以上の代表モデルとその変種、20以上のタスクのカテゴリ、および680以上の関連する広範な研究をカバーしている。
発達軌道の考察に基づいて、コードインテリジェンスとより広範なマシンインテリジェンスとの間の新たな相乗効果について検討する。
論文 参考訳(メタデータ) (2024-03-21T08:54:56Z) - Uncovering and Quantifying Social Biases in Code Generation [71.96047133403688]
コード生成モデルにおいて,コードプロンプトを構築し,社会的バイアスを明らかにするための新しいパラダイムを提案する。
我々は,3つの指標とともにデータセットを開発し,社会の偏見と,異なる人口層間でのきめ細かい不公平さを評価する。
我々は、社会的バイアスの低いコード生成モデルをさらに選択するための有用な洞察を提供するために分析を行う。
論文 参考訳(メタデータ) (2023-05-24T17:37:33Z) - A Comprehensive Survey of AI-Generated Content (AIGC): A History of
Generative AI from GAN to ChatGPT [63.58711128819828]
ChatGPTおよびその他の生成AI(GAI)技術は、人工知能生成コンテンツ(AIGC)のカテゴリに属している。
AIGCの目標は、コンテンツ作成プロセスをより効率的かつアクセスしやすくし、高品質なコンテンツをより高速に生産できるようにすることである。
論文 参考訳(メタデータ) (2023-03-07T20:36:13Z) - Chatbots As Fluent Polyglots: Revisiting Breakthrough Code Snippets [0.0]
この研究は、AI駆動のコードアシスタントを使用して、現代技術を形成する影響力のあるコンピュータコードの選択を分析する。
この研究の最初の貢献は、過去50年で最も重要なコードの進歩の半分を調査することであった。
論文 参考訳(メタデータ) (2023-01-05T23:17:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。