論文の概要: Unveiling Provider Bias in Large Language Models for Code Generation
- arxiv url: http://arxiv.org/abs/2501.07849v1
- Date: Tue, 14 Jan 2025 05:21:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:27:50.185744
- Title: Unveiling Provider Bias in Large Language Models for Code Generation
- Title(参考訳): コード生成のための大規模言語モデルにおけるプロバイダバイアスの解放
- Authors: Xiaoyu Zhang, Juan Zhai, Shiqing Ma, Qingshuang Bao, Weipeng Jiang, Chao Shen, Yang Liu,
- Abstract要約: 大規模言語モデル(LLM)が新しいレコメンデーションエンジンとして登場した。
我々の研究は、LSMにおける新たなプロバイダバイアス、すなわち明示的な入力プロンプトを伴わないことを明らかにする。
このバイアスは、市場のダイナミクスと社会的均衡に重大な影響を及ぼす。
- 参考スコア(独自算出の注目度): 34.415680411672554
- License:
- Abstract: Large Language Models (LLMs) have emerged as the new recommendation engines, outperforming traditional methods in both capability and scope, particularly in code generation applications. Our research reveals a novel provider bias in LLMs, namely without explicit input prompts, these models show systematic preferences for services from specific providers in their recommendations (e.g., favoring Google Cloud over Microsoft Azure). This bias holds significant implications for market dynamics and societal equilibrium, potentially promoting digital monopolies. It may also deceive users and violate their expectations, leading to various consequences. This paper presents the first comprehensive empirical study of provider bias in LLM code generation. We develop a systematic methodology encompassing an automated pipeline for dataset generation, incorporating 6 distinct coding task categories and 30 real-world application scenarios. Our analysis encompasses over 600,000 LLM-generated responses across seven state-of-the-art models, utilizing approximately 500 million tokens (equivalent to \$5,000+ in computational costs). The study evaluates both the generated code snippets and their embedded service provider selections to quantify provider bias. Additionally, we conduct a comparative analysis of seven debiasing prompting techniques to assess their efficacy in mitigating these biases. Our findings demonstrate that LLMs exhibit significant provider preferences, predominantly favoring services from Google and Amazon, and can autonomously modify input code to incorporate their preferred providers without users' requests. Notably, we observe discrepancies between providers recommended in conversational contexts versus those implemented in generated code. The complete dataset and analysis results are available in our repository.
- Abstract(参考訳): 大規模言語モデル(LLM)が新しいレコメンデーションエンジンとして登場し、特にコード生成アプリケーションにおいて、機能とスコープの両方において従来のメソッドよりも優れています。
我々の研究は、LSMの新たなプロバイダバイアス、すなわち明示的なインプットプロンプトなしで、これらのモデルは、推奨する特定のプロバイダ(例えば、Microsoft AzureよりもGoogle Cloudを好む)からのサービスに対して、体系的な好みを示す。
このバイアスは、市場ダイナミクスと社会的均衡に重要な意味を持ち、デジタルモノポリスを促進する可能性がある。
また、ユーザーを騙し、彼らの期待に反し、様々な結果をもたらす可能性がある。
本稿では,LLMコード生成におけるプロバイダバイアスの総合的研究について述べる。
我々は、6つの異なるコーディングタスクカテゴリと30の実世界のアプリケーションシナリオを組み込んだ、データセット自動生成パイプラインを含む体系的な方法論を開発する。
我々の分析では、7つの最先端モデルの60,000 LLM生成応答を約5億のトークン(計算コストで5,000ドル以上に相当する)を用いて網羅している。
この研究は、生成されたコードスニペットと組み込みサービスプロバイダの選択の両方を評価し、プロバイダのバイアスを定量化する。
さらに,これらのバイアスを緩和する効果を評価するために,7つの脱バイアス法の比較分析を行った。
以上の結果から,LSMはGoogleやAmazonのサービスに好意的であり,ユーザの要求なしに入力コードを自動で修正してプロバイダを組み込むことが可能であることが示唆された。
特に、会話のコンテキストで推奨されるプロバイダと、生成されたコードに実装されるプロバイダとの相違を観察する。
完全なデータセットと分析結果は、私たちのリポジトリで利用可能です。
関連論文リスト
- Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
本研究では,大規模言語モデル (LLM) を用いて予測モデルの事前分布を推定する手法を提案する。
その結果,LLMによる事前パラメータ分布は,低データ設定における非形式的先行よりも予測誤差を著しく低減することがわかった。
事前の推論も一貫して優れており、低コストでテキスト内学習よりも信頼性が高いことが証明されている。
論文 参考訳(メタデータ) (2024-11-26T10:13:39Z) - Learning to Predict Usage Options of Product Reviews with LLM-Generated Labels [14.006486214852444]
複雑な自然言語タスクにおけるデータアノテートのための,少人数の学習者としてLLMを使用する手法を提案する。
カスタムモデルを学ぶことは、エネルギー効率とプライバシー対策を個別に制御する。
結果のデータの質が、サードパーティのベンダーサービスによって達成されたレベルを超えていることに気付きました。
論文 参考訳(メタデータ) (2024-10-16T11:34:33Z) - LLM-based Weak Supervision Framework for Query Intent Classification in Video Search [6.519428288229856]
本稿では,大規模言語モデル(LLM)を弱監督によって活用し,大量のユーザ検索クエリを自動的にアノテートする手法を提案する。
思考の連鎖(Chain of Thought)と文脈学習(In-Context Learning)を通じてドメイン知識を組み込むことによって、我々のアプローチはラベル付きデータを活用し、リアルタイム推論に最適化された低レイテンシモデルを訓練する。
論文 参考訳(メタデータ) (2024-09-13T15:47:50Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Conversational Factor Information Retrieval Model (ConFIRM) [2.855224352436985]
ConFIRM(Conversational Factor Information Retrieval Method)は、ドメイン固有の検索タスクのための大規模言語モデル(LLM)を微調整する新しい手法である。
本研究では、金融セクターにおけるケーススタディを通じて、パーソナライズされたデータを用いてLlama-2-7bモデルを微調整し、ConFIRMの有効性を実証する。
結果のモデルでは、ファイナンシャルクエリの分類において91%の精度が達成され、NVIDIA A100 GPU上での平均推論時間は0.61秒であった。
論文 参考訳(メタデータ) (2023-10-06T12:31:05Z) - Learning to Rank in the Position Based Model with Bandit Feedback [3.9121134770873742]
本稿では,LinUCB と Linear Thompson Sampling の2つのよく知られたアルゴリズムの拡張を提案する。
生産環境におけるバイアスを考慮し,位置ベースクリックモデルを用いる。
論文 参考訳(メタデータ) (2020-04-27T19:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。