論文の概要: Reward Reports for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2204.10817v1
- Date: Fri, 22 Apr 2022 16:53:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 14:45:43.675998
- Title: Reward Reports for Reinforcement Learning
- Title(参考訳): 強化学習に対する報酬報告
- Authors: Thomas Gilbert, Sarah Dean, Nathan Lambert, Tom Zick and Aaron
Snoswell
- Abstract要約: デプロイされた学習システムのドキュメンテーションのためのフレームワークをスケッチし、それをReward Reportsと呼ぶ。
DeepMindのMuZero、MovieLens、Project Flowトラフィック制御ポリシの仮説的なデプロイの3つの例を挙げる。
- 参考スコア(独自算出の注目度): 3.7568608766189597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The desire to build good systems in the face of complex societal effects
requires a dynamic approach towards equity and access. Recent approaches to
machine learning (ML) documentation have demonstrated the promise of discursive
frameworks for deliberation about these complexities. However, these
developments have been grounded in a static ML paradigm, leaving the role of
feedback and post-deployment performance unexamined. Meanwhile, recent work in
reinforcement learning design has shown that the effects of optimization
objectives on the resultant system behavior can be wide-ranging and
unpredictable. In this paper we sketch a framework for documenting deployed
learning systems, which we call Reward Reports. Taking inspiration from various
contributions to the technical literature on reinforcement learning, we outline
Reward Reports as living documents that track updates to design choices and
assumptions behind what a particular automated system is optimizing for. They
are intended to track dynamic phenomena arising from system deployment, rather
than merely static properties of models or data. After presenting the elements
of a Reward Report, we provide three examples: DeepMind's MuZero, MovieLens,
and a hypothetical deployment of a Project Flow traffic control policy.
- Abstract(参考訳): 複雑な社会的影響に直面して優れたシステムを構築するためには、株式とアクセスに対する動的なアプローチが必要である。
機械学習(ML)ドキュメンテーションへの最近のアプローチは、これらの複雑さについて検討するための分散フレームワークの可能性を実証している。
しかしながら、これらの開発は静的MLパラダイムに基づいており、フィードバックやデプロイ後のパフォーマンスの役割は未検討のままである。
一方, 強化学習設計における最近の研究により, 最適化目標がシステム動作に与える影響は広範囲に及び予測不可能であることが示されている。
本稿では,Reward Reportsと呼ぶ,デプロイされた学習システムの文書化のためのフレームワークをスケッチする。
強化学習に関する技術文献への様々な貢献から着想を得て、リワードレポートを、特定の自動化システムが最適化しているものの背後にある設計選択や仮定の更新を追跡する、生きたドキュメントとして概説する。
それらは単にモデルやデータの静的な特性ではなく、システムデプロイメントから生じる動的現象を追跡することを目的としている。
Reward Reportの要素を提示した後、DeepMindのMuZero、MovieLens、Project Flowトラフィック制御ポリシーの仮説的な展開の3つの例を挙げる。
関連論文リスト
- Any-point Trajectory Modeling for Policy Learning [67.45990463611942]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Relax: Composable Abstractions for End-to-End Dynamic Machine Learning [19.79913796167022]
本稿では、エンドツーエンドの動的機械学習ワークロードを最適化するためのコンパイラ抽象化であるRelaxを紹介する。
Relaxは、プログラム全体にわたって動的形状の計算を追跡するために、第一級の記号型アノテーションを導入した。
動的形状モデルを最適化するために提案手法を用いて,エンドツーエンドのコンパイルフレームワークを構築した。
論文 参考訳(メタデータ) (2023-11-01T23:03:59Z) - Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。
本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文 参考訳(メタデータ) (2023-06-16T08:13:41Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z) - Reinforcement Learning based Path Exploration for Sequential Explainable
Recommendation [57.67616822888859]
強化学習(TMER-RL)を活用した新しい時間的メタパスガイド型説明可能な勧告を提案する。
TMER-RLは, 動的知識グラフ上での動的ユーザ・イテム進化を逐次モデル化するために, 注意機構を持つ連続項目間の強化項目・イテムパスをモデル化する。
2つの実世界のデータセットに対するTMERの大規模な評価は、最近の強いベースラインと比較して最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2021-11-24T04:34:26Z) - OPAD: An Optimized Policy-based Active Learning Framework for Document
Content Analysis [6.159771892460152]
文書のコンテンツ検出タスクにおける能動的学習のための強化ポリシーを用いた新しいフレームワークであるtextitOPADを提案する。
フレームワークは、取得機能を学び、パフォーマンスメトリクスを最適化しながら、選択するサンプルを決定する。
本稿では,文書理解に関わる様々なタスクに対する能動的学習のためのテキストOPADフレームワークの優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-01T07:40:56Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Generative Adversarial Simulator [2.3986080077861787]
強化学習における知識蒸留へのシミュレータフリーアプローチを提案する。
重要な課題は、学生に与えられた行動に対応する事例の多様さを学習させることである。
これは教師と学生の政策の間のシミュレータフリーな知識蒸留の初めての実演である。
論文 参考訳(メタデータ) (2020-11-23T15:31:12Z) - Incremental Object Detection via Meta-Learning [77.55310507917012]
本稿では,段階的タスク間の情報を最適に共有するように,モデル勾配を再形成するメタラーニング手法を提案する。
既存のメタ学習法と比較して,本手法はタスク非依存であり,オブジェクト検出のための高容量モデルに新たなクラスやスケールを段階的に追加することができる。
論文 参考訳(メタデータ) (2020-03-17T13:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。