論文の概要: On the Convergence of No-Regret Dynamics in Information Retrieval Games with Proportional Ranking Functions
- arxiv url: http://arxiv.org/abs/2405.11517v2
- Date: Thu, 08 Aug 2024 12:52:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 00:30:32.216025
- Title: On the Convergence of No-Regret Dynamics in Information Retrieval Games with Proportional Ranking Functions
- Title(参考訳): 相対ランク関数を持つ情報検索ゲームにおける非線形ダイナミクスの収束性について
- Authors: Omer Madmon, Idan Pipano, Itamar Reinman, Moshe Tennenholtz,
- Abstract要約: Web上でコンテンツを公開するパブリッシャは、オンライン学習フレームワーク内でモデル化可能な振る舞いとして、戦略的に行動する。
コンケーブアクティベーション関数を持つ任意の比例コンテンツランキング関数が、非回帰学習ダイナミクスが収束するゲームを引き起こすことを証明した。
- 参考スコア(独自算出の注目度): 9.08198510616929
- License:
- Abstract: Publishers who publish their content on the web act strategically, in a behavior that can be modeled within the online learning framework. Regret, a central concept in machine learning, serves as a canonical measure for assessing the performance of learning agents within this framework. We prove that any proportional content ranking function with a concave activation function induces games in which no-regret learning dynamics converge. Moreover, for proportional ranking functions, we prove the equivalence of the concavity of the activation function, the social concavity of the induced games and the concavity of the induced games. We also study the empirical trade-offs between publishers' and users' welfare, under different choices of the activation function, using a state-of-the-art no-regret dynamics algorithm. Furthermore, we demonstrate how the choice of the ranking function and changes in the ecosystem structure affect these welfare measures, as well as the dynamics' convergence rate.
- Abstract(参考訳): Web上でコンテンツを公開するパブリッシャは、オンライン学習フレームワーク内でモデル化可能な振る舞いとして、戦略的に行動する。
マシンラーニングの中心的な概念であるRegretは、このフレームワーク内の学習エージェントのパフォーマンスを評価するための標準尺度として機能する。
コンケーブアクティベーション関数を持つ任意の比例コンテンツランキング関数が、非回帰学習ダイナミクスが収束するゲームを引き起こすことを証明した。
さらに、比例ランク関数に対しては、アクティベーション関数の凹凸、誘導された遊技の社会的凹凸、誘導された遊技の凹凸の等価性を証明する。
我々はまた,アクティベーション関数の異なる選択の下で,出版社と利用者の福祉の実証的なトレードオフを,最先端のノリグレト・ダイナミックスアルゴリズムを用いて検討した。
さらに, ランキング関数の選択と生態系構造の変化が, これらの福祉対策や, ダイナミクスの収束率にどのように影響するかを示す。
関連論文リスト
- Demonstrating the Continual Learning Capabilities and Practical Application of Discrete-Time Active Inference [0.0]
アクティブ推論は、エージェントが環境とどのように相互作用するかを理解するための数学的フレームワークである。
本稿では,個別の時間環境で動作するエージェントのための連続学習フレームワークを提案する。
我々は、エージェントがモデルを再学習し、効率的に洗練する能力を示し、金融や医療といった複雑な分野に適合する。
論文 参考訳(メタデータ) (2024-09-30T21:18:46Z) - DSReLU: A Novel Dynamic Slope Function for Superior Model Training [2.2057562301812674]
このアプローチの理論的根拠は、ReLUのような従来のアクティベーション関数に関連する制限を克服することである。
提案手法は,Mini-ImageNet,CIFAR-100,MIT-BIHデータセットに基づいて,分類基準と一般化能力の改善を実証した。
論文 参考訳(メタデータ) (2024-08-17T10:01:30Z) - Loss Dynamics of Temporal Difference Reinforcement Learning [36.772501199987076]
線形関数近似器を用いた値関数の時間差学習のためのケースラーニング曲線について検討した。
本研究では,学習力学と台地が特徴構造,学習率,割引係数,報酬関数にどのように依存するかを検討する。
論文 参考訳(メタデータ) (2023-07-10T18:17:50Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - How important are activation functions in regression and classification?
A survey, performance comparison, and future directions [0.0]
我々は過去に採用されてきたアクティベーション機能と現在の最先端技術について調査する。
近年,科学計算に関わる問題を解くために,物理インフォームド機械学習フレームワークが登場している。
論文 参考訳(メタデータ) (2022-09-06T17:51:52Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - SERF: Towards better training of deep neural networks using log-Softplus
ERror activation Function [0.0]
本稿では,自然界において自己規則化され,非単調なSerfと呼ばれる新しいアクティベーション関数を提案する。
SerfはReLU(ベースライン)およびSwishおよびMishを含む他のアクティベーション機能を大きく上回っていることが観察された。
論文 参考訳(メタデータ) (2021-08-21T23:33:57Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Spectrum-Guided Adversarial Disparity Learning [52.293230153385124]
本稿では,新たなエンド・ツー・エンドの知識指向学習フレームワークを提案する。
2つの競合符号化分布を用いてクラス条件付きクラス内不一致を表現し、学習された不一致を識別することで精製された潜伏符号を学習する。
4つのHARベンチマークデータセットに対する実験により,提案手法の頑健性と,最先端の手法による一般化が実証された。
論文 参考訳(メタデータ) (2020-07-14T05:46:27Z) - Off-Dynamics Reinforcement Learning: Training for Transfer with Domain
Classifiers [138.68213707587822]
強化学習におけるドメイン適応のためのシンプルで実践的で直感的なアプローチを提案する。
報酬関数を変更することで、力学の違いを補うことで、この目標を達成することができることを示す。
我々のアプローチは、連続状態とアクションを持つドメインに適用でき、ダイナミックスの明示的なモデルを学ぶ必要がない。
論文 参考訳(メタデータ) (2020-06-24T17:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。