論文の概要: Emergent Instabilities in Algorithmic Feedback Loops
- arxiv url: http://arxiv.org/abs/2201.07203v1
- Date: Tue, 18 Jan 2022 18:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 19:02:23.994540
- Title: Emergent Instabilities in Algorithmic Feedback Loops
- Title(参考訳): アルゴリズムフィードバックループの創発的不安定性
- Authors: Keith Burghardt, Kristina Lerman
- Abstract要約: 教師-学生の学習シミュレーションを用いて,推薦アルゴリズムにおけるアルゴリズムの相違について検討する。
結果は、人とアルゴリズム間の相互作用から創発的な行動を説明する必要性を強調している。
- 参考スコア(独自算出の注目度): 3.4711828357576855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Algorithms that aid human tasks, such as recommendation systems, are
ubiquitous. They appear in everything from social media to streaming videos to
online shopping. However, the feedback loop between people and algorithms is
poorly understood and can amplify cognitive and social biases (algorithmic
confounding), leading to unexpected outcomes. In this work, we explore
algorithmic confounding in collaborative filtering-based recommendation
algorithms through teacher-student learning simulations. Namely, a student
collaborative filtering-based model, trained on simulated choices, is used by
the recommendation algorithm to recommend items to agents. Agents might choose
some of these items, according to an underlying teacher model, with new choices
then fed back into the student model as new training data (approximating online
machine learning). These simulations demonstrate how algorithmic confounding
produces erroneous recommendations which in turn lead to instability, i.e.,
wide variations in an item's popularity between each simulation realization. We
use the simulations to demonstrate a novel approach to training collaborative
filtering models that can create more stable and accurate recommendations. Our
methodology is general enough that it can be extended to other socio-technical
systems in order to better quantify and improve the stability of algorithms.
These results highlight the need to account for emergent behaviors from
interactions between people and algorithms.
- Abstract(参考訳): 推薦システムのような人間のタスクを支援するアルゴリズムはユビキタスである。
ソーシャルメディアからストリーミングビデオ、オンラインショッピングまで、あらゆるものに登場する。
しかし、人とアルゴリズムの間のフィードバックループは理解が不十分であり、認知バイアスや社会的偏見を増幅し、予期せぬ結果をもたらす。
本研究では,教師の学習シミュレーションを用いて,協調フィルタリングに基づく推薦アルゴリズムのアルゴリズム的コンファウンディングについて検討する。
すなわち、シミュレーションされた選択に基づいて訓練された学生協調フィルタリングに基づくモデルは、エージェントにアイテムを推薦するために推奨アルゴリズムによって使用される。
エージェントは、教師モデルに基づいてこれらの項目のいくつかを選択し、新しい選択は、新しいトレーニングデータ(オンライン機械学習を近似する)として学生モデルにフィードバックされる。
これらのシミュレーションは、アルゴリズム的結合が誤った推奨を生み出すことを示し、結果として、各シミュレーション実現の間でアイテムの人気が広範囲に変化する不安定性をもたらす。
シミュレーションを用いて,より安定かつ正確な推薦を作成できる協調フィルタリングモデルの訓練手法を示す。
我々の手法は、アルゴリズムの安定性をより定量化し改善するために、他の社会技術システムに拡張できるほど一般的である。
これらの結果は,人とアルゴリズムの相互作用から生じる行動の考慮の必要性を浮き彫りにしたものである。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Data-Driven H-infinity Control with a Real-Time and Efficient
Reinforcement Learning Algorithm: An Application to Autonomous
Mobility-on-Demand Systems [3.5897534810405403]
本稿では,線形離散時間系のH$_infty$制御を解くために,モデルフリー,リアルタイム,データ効率のQ-ラーニングに基づくアルゴリズムを提案する。
適応最適制御器を設計し、システムダイナミクスの知識を必要とせず、アクションと批評家ネットワークのパラメータをオンラインで学習する。
論文 参考訳(メタデータ) (2023-09-16T05:02:41Z) - Batch Active Learning from the Perspective of Sparse Approximation [12.51958241746014]
アクティブな学習は、機械学習エージェントと人間のアノテーションとのインタラクションを活用することで、効率的なモデルトレーニングを可能にする。
スパース近似の観点からバッチアクティブラーニングを定式化する新しいフレームワークを提案し,提案する。
我々のアクティブラーニング手法は、ラベルのないデータプールから、対応するトレーニング損失関数が、そのフルデータプールに近似するように、情報的サブセットを見つけることを目的としている。
論文 参考訳(メタデータ) (2022-11-01T03:20:28Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - New Auction Algorithms for Path Planning, Network Transport, and
Reinforcement Learning [0.0]
最適および準最適解に対する新しいオークションベースのアルゴリズムを提案する。
アルゴリズムは、オブジェクトの人による競争入札に関連する数学的アイデアに基づいている。
新しいアルゴリズムは、既存の手法よりもいくつかの潜在的な利点がある。
論文 参考訳(メタデータ) (2022-07-19T23:31:36Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Safe Learning and Optimization Techniques: Towards a Survey of the State
of the Art [3.6954802719347413]
安全な学習と最適化は、できるだけ安全でない入力ポイントの評価を避ける学習と最適化の問題に対処します。
安全強化学習アルゴリズムに関する包括的な調査は2015年に発表されたが、アクティブラーニングと最適化に関する関連研究は考慮されなかった。
本稿では,強化学習,ガウス過程の回帰と分類,進化的アルゴリズム,アクティブラーニングなど,様々な分野のアルゴリズムについて概説する。
論文 参考訳(メタデータ) (2021-01-23T13:58:09Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Towards Understanding the Behaviors of Optimal Deep Active Learning
Algorithms [19.65665942630067]
アクティブラーニング(AL)アルゴリズムは、モデルがデータ選択プロセスを導くため、より少ないデータでより良いパフォーマンスを達成できます。
alの最適形状についてはほとんど研究されていないため、研究者たちはモデルがどこが不足しているかを理解するのに役立つだろう。
我々は,この最適オラクルを探索し,いくつかのタスクで解析するシミュレーションアニーリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-29T22:56:42Z) - A User's Guide to Calibrating Robotics Simulators [54.85241102329546]
本稿では,シミュレーションで学習したモデルやポリシーを現実世界に伝達することを目的とした,様々なアルゴリズムの研究のためのベンチマークとフレームワークを提案する。
我々は、様々なアルゴリズムの性能に関する洞察を特徴付け、提供するために、広く知られたシミュレーション環境の実験を行う。
我々の分析は、この分野の実践者にとって有用であり、sim-to-realアルゴリズムの動作と主特性について、より深い選択をすることができる。
論文 参考訳(メタデータ) (2020-11-17T22:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。