Fugu-MT 論文翻訳(概要): Understanding algorithmic collusion with experience replay

関連論文リスト

ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking [84.07076200941474]
ArenaRLは、ポイントワイドスカラースコアからグループ内相対ランクにシフトする強化学習パラダイムである。我々は,グループ内対角アリーナを構築し,安定した有利な信号を得るためのトーナメントベースのランキングスキームを考案する。実験により、ArenaRLは標準のRLベースラインを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2026-01-10T08:43:07Z)
LLMs Can't Handle Peer Pressure: Crumbling under Multi-Agent Social Interactions [35.71511502901056]
大規模言語モデル(LLM)は、コラボレーションインテリジェンスのコンポーネントとして、マルチエージェントシステムにますます多くデプロイされている。 LLMが過去の印象からの信頼をいかに形成し、誤報に抵抗し、相互作用中にピアインプットを統合するかを検討する。 KAIROSは、クイズコンテストをシミュレーションするベンチマークで、信頼性の異なるピアエージェントを提示する。
論文参考訳（メタデータ） (2025-08-24T09:58:10Z)
Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文参考訳（メタデータ） (2025-06-10T12:40:39Z)
Learning to Charge More: A Theoretical Study of Collusion by Q-Learning Agents [9.053163124987535]
無限反復ゲームにおいて、この振る舞いに関する最初の理論的説明を提供する。ゲームが1段階のナッシュ均衡価格と共謀誘発価格の両方を許容すると、企業は相反する価格を一貫して請求することを学ぶ。
論文参考訳（メタデータ） (2025-05-28T22:18:35Z)
Learning Equilibria from Data: Provably Efficient Multi-Agent Imitation Learning [69.45910671974296]
非インタラクティブな模倣学習環境では, 単一ポリシー偏差集中係数という新しい量が避けられないことを示す。我々はMAIL-BROとMURMAILの2つの新しい解法アルゴリズムを紹介する。後者は、$mathcalO(varepsilon-8)$の厳密なクエリの複雑さを犠牲にして、完全に最高のレスポンスオラクルをバイパスする。
論文参考訳（メタデータ） (2025-05-23T08:18:35Z)
Naive Algorithmic Collusion: When Do Bandit Learners Cooperate and When Do They Compete? [0.0]
アルゴリズムエージェントは、さまざまな競争上の決定設定で使用される。エージェントが競合する状況で使用されるマルチアーム帯域幅機械学習アルゴリズムの動作について検討する。これらの文脈自由な盗賊は、相手の選択や結果の知識がないまま、相変わらず共謀行動を学ぶことを示している。
論文参考訳（メタデータ） (2024-11-25T16:58:07Z)
Artificial Intelligence and Algorithmic Price Collusion in Two-sided Markets [9.053163124987535]
両市場において,Qラーニングを用いたAIエージェントが暗黙の共謀にどのように関与するかを検討する。我々の実験によると、AI駆動プラットフォームはBertrandの競合よりも高いコラシオンレベルを実現している。ネットワークの外部性の向上は、共謀を著しく向上させ、AIアルゴリズムがそれらを活用して利益を最大化することを示唆している。
論文参考訳（メタデータ） (2024-07-04T17:57:56Z)
By Fair Means or Foul: Quantifying Collusion in a Market Simulation with Deep Reinforcement Learning [1.5249435285717095]
本研究は、反復価格競争の実験的なオリゴポリーモデルを用いる。我々は,エージェントが開発する戦略と価格パターンについて検討し,その結果を導出する可能性がある。以上の結果から,RLをベースとしたAIエージェントは,超競争的価格帯電を特徴とする癒着状態に収束することが示唆された。
論文参考訳（メタデータ） (2024-06-04T15:35:08Z)
Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文参考訳（メタデータ） (2024-04-16T17:59:55Z)
Algorithmic Collusion by Large Language Models [0.08192907805418582]
我々は,Large Language Models(LLMs)に基づくアルゴリズム価格設定エージェントによる実験を行う。 LLMをベースとしたエージェントは、価格設定作業に長けており、消費者の負担に対して、オリゴポリー設定で自律的にコロードし、LCM命令の一見無害なフレーズの変化は、共謀を増す可能性がある。
論文参考訳（メタデータ） (2024-03-31T21:43:05Z)
Compressed Federated Reinforcement Learning with a Generative Model [11.074080383657453]
強化学習は近年、前例のない人気を得たが、それでもサンプルの非効率さに悩まされている。この課題に対処するため、フェデレーション強化学習(FedRL)が出現し、エージェントは局所的な推定を集約することで単一のポリシーを協調的に学習する。通信効率のよいFedRL手法であるCompFedRLを提案する。
論文参考訳（メタデータ） (2024-03-26T15:36:47Z)
Tacit algorithmic collusion in deep reinforcement learning guided price competition: A study using EV charge pricing game [0.0]
複雑な構造を持つゲームの価格設定のプレイヤーは、人工知能(AI)による学習アルゴリズムの採用が増えている。正準形式のゲームに関する最近の研究は、無から高レベルの暗黙の共謀まで、対照的な主張を示している。 EV充電ハブが価格を動的に変動させることで競争する現実的なゲームを考える。数値ケーススタディの結果,0.14～0.45の衝突指数値が得られた。
論文参考訳（メタデータ） (2024-01-25T16:51:52Z)
Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文参考訳（メタデータ） (2023-11-16T09:07:34Z)
Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文参考訳（メタデータ） (2023-10-02T08:15:52Z)
CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文参考訳（メタデータ） (2023-02-09T17:16:29Z)
Credit-cognisant reinforcement learning for multi-agent cooperation [0.0]
エージェントは,その行動が環境および共同エージェントに与える影響を知覚することができる。これらの経験を操り、それらに含まれる報酬を構成することで、すべてのエージェントが受け取る報酬を同一のアクションシーケンスに含めることで、独立した深層Q-ラーニングの性能を大幅に向上できることを示す。
論文参考訳（メタデータ） (2022-11-18T09:00:25Z)
Provably Efficient Fictitious Play Policy Optimization for Zero-Sum Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文参考訳（メタデータ） (2022-07-25T18:29:16Z)
Simultaneous Double Q-learning with Conservative Advantage Learning for Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文参考訳（メタデータ） (2022-05-08T09:17:16Z)
Convergence Results For Q-Learning With Experience Replay [51.11953997546418]
コンバージェンスレート保証を行い、リプレイの頻度や回数といった重要なパラメータによってQ-ラーニングのコンバージェンスとどのように比較されるかについて議論する。また、シンプルなMDPのクラスを導入・分析することで、これを厳格に改善する可能性を示す理論的な証拠も提示する。
論文参考訳（メタデータ） (2021-12-08T10:22:49Z)
Online Search With Best-Price and Query-Based Predictions [2.3204178451683264]
本稿では,入力に関する誤予測が存在する可能性のある学習増強アルゴリズムについて検討する。株式市場から得られたデータに関する実験結果を提供する。
論文参考訳（メタデータ） (2021-12-02T20:18:37Z)
Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文参考訳（メタデータ） (2021-10-25T02:53:24Z)
Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文参考訳（メタデータ） (2021-06-06T19:08:53Z)
Revisiting Smoothed Online Learning [70.09792747315323]
オンライン学習者がヒットコストとスイッチングコストの両方に苦しむスムーズなオンライン学習の問題を調査します。競争比を縛るために、各ラウンドで打つコストが学習者に知られていると仮定し、打つコストと切り換えコストの重み付け合計を単純に最小化する勾配アルゴリズムを調査します。
論文参考訳（メタデータ） (2021-02-13T14:15:55Z)
Accelerated Convergence for Counterfactual Learning to Rank [65.63997193915257]
IPS重み付き勾配を持つSGD手法の収束速度は、IPS重みによる大きなばらつきに悩まされることを示す。本稿では,従来のIPS重み付け勾配降下法よりも優れた収束性を有する新しい学習アルゴリズムであるCounterSampleを提案する。我々は、CounterSampleがより早く収束し、理論的な結果と経験的な結果とを補完することを証明する。
論文参考訳（メタデータ） (2020-05-21T12:53:36Z)
Greedy Algorithm almost Dominates in Smoothed Contextual Bandits [100.09904315064372]
オンライン学習アルゴリズムは探索と搾取のバランスをとる必要がある。欲求的アプローチは、他のアルゴリズムのベイズ的後悔率とほぼ一致していることを示す。
論文参考訳（メタデータ） (2020-05-19T18:11:40Z)
Multi-Issue Bargaining With Deep Reinforcement Learning [0.0]
本稿では,バーゲティングゲームにおける深層強化学習の活用について検討する。入札と受け入れ戦略のために2つのアクター・クリティカル・ネットワークが訓練された。ニューラルエージェントは時間ベースのエージェントを活用することを学び、決定優先値の明確な遷移を達成する。彼らはまた、譲歩、割引要因、行動に基づく戦略の異なる組み合わせに対して適応的な行動を示す。
論文参考訳（メタデータ） (2020-02-18T18:33:46Z)
Adversarial Attacks on Linear Contextual Bandits [87.08004581867537]
悪意のあるエージェントは、望ましい行動を実行するためにバンディットアルゴリズムを攻撃するインセンティブを持つ可能性がある。悪意のあるエージェントは、線形コンテキストのバンドイットアルゴリズムに任意のアーム$T - o(T)$倍を$T$ステップで引き出すように強制することができる。また,悪意のあるエージェントが単一コンテキストにおける帯域幅アルゴリズムの動作に影響を与えることに関心がある場合についても検討する。
論文参考訳（メタデータ） (2020-02-10T15:04:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: Understanding algorithmic collusion with experience replay

関連論文リスト