論文の概要: Do LLMs Favor Their Providers? Measuring Vertical Integration Bias in Code Generation
- arxiv url: http://arxiv.org/abs/2605.28515v1
- Date: Wed, 27 May 2026 14:17:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.10289
- Title: Do LLMs Favor Their Providers? Measuring Vertical Integration Bias in Code Generation
- Title(参考訳): LLMはプロバイダを好んでいるか? コード生成における垂直統合バイアスの測定
- Authors: Melih Catal, Alex Wolf, Tiago Ferreiro Matos, Pooja Rani, Harald Gall,
- Abstract要約: 多くの大きな言語モデル(LLM)は特定のプロバイダに関連付けられている。
これにより、生成されたコードが、同等の選択肢よりもプロバイダ自身のエコシステムを好むかどうかという疑問が持ち上がる。
コード生成におけるVertical Integration Bias (VIB) の測定ベンチマークである textscVIBench を導入する。
- 参考スコア(独自算出の注目度): 2.5322673002308362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have become an integral part of software development, especially with the advent of agentic capabilities. Yet, many frontier LLMs are affiliated with specific providers. This raises the question of whether generated code favors the provider's own ecosystem over comparable alternatives, potentially constraining developers' choices and increasing dependence on a single provider. We define this behavior as Vertical Integration Bias (VIB) and introduce \textsc{VIBench}, a benchmark for measuring VIB in direct and agentic code generation across $20$ provider-selectable software-integration scenarios. Evaluating $10$ frontier provider-affiliated models against $3$ non-affiliated controls, we find positive VIB in direct generation, with six of ten affiliated models showing statistically significant effects up to $+18.8$ percentage points (pp). Agentic workflows further amplify VIB, reaching $+39.2$ pp. Moreover, early affiliated-ecosystem choices in agentic workflows can persist into conceptually decoupled downstream files, with persistence as high as $90.3\%$. These findings underscore the need to measure and account for VIB in code generation, especially as agentic capabilities become more prevalent.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特にエージェント能力の出現によって、ソフトウェア開発において不可欠な部分となっている。
しかし、多くのフロンティアLSMは特定のプロバイダと提携している。
これにより、生成されたコードは、同等の選択肢よりもプロバイダ自身のエコシステムを好んでおり、開発者の選択を制限し、単一のプロバイダへの依存を増大させる可能性がある、という疑問が持ち上がる。
我々は、この振る舞いをVertical Integration Bias (VIB) と定義し、20ドルのプロバイダ選択可能なソフトウェア統合シナリオにまたがる直接的およびエージェント的コード生成におけるVIBを測定するベンチマークである \textsc{VIBench} を導入する。
10ドル(約10万円)のフロンティア・プロバイダ関連モデルと3ドル(約3,800円)の非関連コントロールを比べると、直接的にVIBが陽性となり、その内6つが統計的に有意な効果を+18.8ドルのパーセンテージポイント(pp)まで示す。
エージェントワークフローはさらにVIBを増幅し、$+39.2$ pp。
さらに、エージェントワークフローにおける初期の関連するエコシステムの選択は、概念的に分離された下流ファイルに持続し、永続性は90.3\%$である。
これらの発見は、特にエージェント機能がより普及するにつれて、コード生成におけるVIBの測定と説明の必要性を浮き彫りにしている。
関連論文リスト
- ChipMATE: Multi-Agent Training via Reinforcement Learning for Enhanced RTL Generation [55.947962672433675]
ChipMATEは、RTL生成のための最初の自己学習型マルチエージェントフレームワークである。
ChipMATEは産業的な実践に触発され、VerilogエージェントとPythonのリファレンスモデルエージェントをペアにし、相互に出力を検証する。
ChipMATEは、VerilogEval V2で75.0%と80.1%パス@1を4Bと9Bベースモデルで達成している。
論文 参考訳(メタデータ) (2026-05-13T01:04:21Z) - ComplexMCP: Evaluation of LLM Agents in Dynamic, Interdependent, and Large-Scale Tool Sandbox [61.862814740220806]
$textbfComplexMCP$は厳格な条件下でエージェントを評価するために設計されたベンチマークである。
Model Context Protocol (MCP)上に構築された$textbfComplexMCP$は300以上の精巧にテストされたツールを提供する。
論文 参考訳(メタデータ) (2026-05-11T16:20:51Z) - $π$-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs [64.60188746073904]
フローベース視覚言語行動モデルは、具体的制御において優れるが、多段階サンプリングにおいて難易度に悩まされる。
textbftextit$boldsymbol$-StepNFT (Step-wise Negative-aware Fine-Tuning)を提案する。
論文 参考訳(メタデータ) (2026-03-02T17:04:49Z) - MagicAgent: Towards Generalized Agent Planning [73.21129030631421]
汎用エージェント計画に特化して設計された基盤モデルである textbfMagicAgent について述べる。
多様な計画タスクにまたがる高品質なトラジェクトリを生成する軽量でスケーラブルな合成データフレームワークを提案する。
MagicAgent-32B と MagicAgent-30B-A3B は様々なオープンソースベンチマークにおいて優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2026-02-22T01:39:16Z) - The Invisible Hand: Unveiling Provider Bias in Large Language Models for Code Generation [37.66613667849016]
大規模言語モデル(LLM)が新しいレコメンデーションエンジンとして登場した。
明示的な指示がなければ、これらのモデルが推奨する特定のプロバイダからのサービスに対して、体系的な嗜好を示すことが示される。
LLMコード生成におけるプロバイダバイアスの総合的研究は,7つの最先端LCMに対して行われた。
論文 参考訳(メタデータ) (2025-01-14T05:21:27Z) - SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。
FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。