論文の概要: LLM Collusion
- arxiv url: http://arxiv.org/abs/2601.01279v1
- Date: Sat, 03 Jan 2026 20:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.160827
- Title: LLM Collusion
- Title(参考訳): LLM衝突
- Authors: Shengyu Cao, Ming Hu,
- Abstract要約: 大型言語モデル(LLM)は、両方の販売者が同じ事前訓練されたモデルに依存している場合、二重言語での共謀を促進することができる。
LLMのロバスト性とロバスト性の設定は相転移によって共謀を誘発できることを示す。
- 参考スコア(独自算出の注目度): 5.363252654303049
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study how delegating pricing to large language models (LLMs) can facilitate collusion in a duopoly when both sellers rely on the same pre-trained model. The LLM is characterized by (i) a propensity parameter capturing its internal bias toward high-price recommendations and (ii) an output-fidelity parameter measuring how tightly outputs track that bias; the propensity evolves through retraining. We show that configuring LLMs for robustness and reproducibility can induce collusion via a phase transition: there exists a critical output-fidelity threshold that pins down long-run behavior. Below it, competitive pricing is the unique long-run outcome. Above it, the system is bistable, with competitive and collusive pricing both locally stable and the realized outcome determined by the model's initial preference. The collusive regime resembles tacit collusion: prices are elevated on average, yet occasional low-price recommendations provide plausible deniability. With perfect fidelity, full collusion emerges from any interior initial condition. For finite training batches of size $b$, infrequent retraining (driven by computational costs) further amplifies collusion: conditional on starting in the collusive basin, the probability of collusion approaches one as $b$ grows, since larger batches dampen stochastic fluctuations that might otherwise tip the system toward competition. The indeterminacy region shrinks at rate $O(1/\sqrt{b})$.
- Abstract(参考訳): 大型言語モデル (LLMs) に価格を委譲することで, 両販売者が同じ事前学習モデルに頼っている場合, デュポポリーでの共謀を促進する方法について検討した。
LLMは、特徴的である
一 内部の高価格勧告に対する偏見を捉えた相対性パラメータ
(II) 出力忠実度パラメータは、そのバイアスをいかに強く出力するかを測定し、その正当性は再学習によって進化する。
我々は,LLMの堅牢性と再現性の設定が相転移によって共謀を誘発できることを示し,長期動作を抑える重要な出力忠実度しきい値が存在することを示した。
その下には、競争力のある価格がユニークな長期的結果である。
その上、システムはバイスタブルであり、競争力と妥協力のある価格は、局所的に安定であり、モデルの初期の好みによって決定される結果である。
価格が平均的に上昇する一方で、時折低価格の勧告は、もっともらしい否認をもたらす。
完全な忠実さで、あらゆる内的初期状態から完全な衝突が起こる。
有限の訓練バッチである$b$に対して、(計算コストによって駆動される)頻繁な再訓練は、コラシオンをさらに増幅する: コンラシブ盆地での開始を条件に、コラシオンの確率が1倍に近づく。
不定値領域は$O(1/\sqrt{b})$で縮まる。
関連論文リスト
- Semantic Faithfulness and Entropy Production Measures to Tame Your LLM Demons and Manage Hallucinations [0.0]
本稿では,情報理論と熱力学の知見を用いた信頼度評価のための2つの新しい指標を提案する。
質問-文脈-回答(QCA)三つ組を共有トピックの確率分布としてモデル化する。
高い忠実さは一般にエントロピーの低い生産を意味する。
論文 参考訳(メタデータ) (2025-12-04T03:47:37Z) - ZIP-RC: Optimizing Test-Time Compute via Zero-Overhead Joint Reward-Cost Prediction [57.799425838564]
ZIP-RCは、モデルに報酬とコストのゼロオーバーヘッド推論時間予測を持たせる適応推論手法である。
ZIP-RCは、同じまたはより低い平均コストで過半数投票よりも最大12%精度が向上する。
論文 参考訳(メタデータ) (2025-12-01T09:44:31Z) - Tacit Bidder-Side Collusion: Artificial Intelligence in Dynamic Auctions [0.0]
本研究では, 自動入札者として機能する大規模言語モデルが, 繰り返しのオランダ競売において, プラットフォーム投稿による支払いをいつ受け入れるかを調整することによって, 密着的にコラージュできるかどうかを考察する。
我々は,ナッシュ平衡に対する持続的共謀のための簡易なインセンティブ整合条件と閉形しきい値が得られる最小繰り返しオークションモデルを提案する。
論文 参考訳(メタデータ) (2025-11-26T18:32:18Z) - The Alignment Bottleneck [0.0]
ループを2段階のカスケード$U to H to Y$ given$S$、認知能力$C_textcog|S$、平均総容量$barC_texttot|S$としてモデル化する。
これは、分離可能なコードブックと、KL項が$m, barC_texttot|S$で同じチャネルで制御されるPAC-Bayes上界とで証明されたデータサイズ非依存のファノ下界をペアする。
論文 参考訳(メタデータ) (2025-09-19T12:38:30Z) - Decision from Suboptimal Classifiers: Excess Risk Pre- and Post-Calibration [52.70324949884702]
バッチ二分決定における近似的後続確率を用いた余剰リスクの定量化を行う。
我々は、再校正のみが後悔のほとんどに対処する体制と、後悔が集団的損失に支配される体制を識別する。
NLP実験では、これらの量によって、より高度なポストトレーニングの期待値が運用コストに値するかどうかが分かる。
論文 参考訳(メタデータ) (2025-03-23T10:52:36Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning [59.02006924867438]
オフ政治評価と学習(OPE/L)は、オフラインの観察データを使用してより良い意思決定を行う。
近年の研究では、分散ロバストなOPE/L (DROPE/L) が提案されているが、この提案は逆正則重み付けに依存している。
KL分散不確実性集合を用いたDROPE/Lの最初のDRアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-19T20:00:44Z) - On Dynamic Pricing with Covariates [6.6543199581017625]
UCBとThompsonのサンプリングに基づく価格設定アルゴリズムは、$O(dsqrtTlog T)$ regret upper boundを実現できることを示す。
私たちの後悔に対する上限は、対数的要因までの下位境界と一致します。
論文 参考訳(メタデータ) (2021-12-25T16:30:13Z) - An Exponential Lower Bound for Linearly-Realizable MDPs with Constant
Suboptimality Gap [66.75488143823337]
また, 指数的標本複雑度は, 一定の準最適ギャップを仮定しても, 未だに保持していることを示した。
おそらく驚くことに、これはオンラインrl設定と生成モデル設定の指数関数的な分離を意味する。
論文 参考訳(メタデータ) (2021-03-23T17:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。