論文の概要: Reward Reports for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2204.10817v1
- Date: Fri, 22 Apr 2022 16:53:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 14:45:43.675998
- Title: Reward Reports for Reinforcement Learning
- Title(参考訳): 強化学習に対する報酬報告
- Authors: Thomas Gilbert, Sarah Dean, Nathan Lambert, Tom Zick and Aaron
Snoswell
- Abstract要約: デプロイされた学習システムのドキュメンテーションのためのフレームワークをスケッチし、それをReward Reportsと呼ぶ。
DeepMindのMuZero、MovieLens、Project Flowトラフィック制御ポリシの仮説的なデプロイの3つの例を挙げる。
- 参考スコア(独自算出の注目度): 3.7568608766189597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The desire to build good systems in the face of complex societal effects
requires a dynamic approach towards equity and access. Recent approaches to
machine learning (ML) documentation have demonstrated the promise of discursive
frameworks for deliberation about these complexities. However, these
developments have been grounded in a static ML paradigm, leaving the role of
feedback and post-deployment performance unexamined. Meanwhile, recent work in
reinforcement learning design has shown that the effects of optimization
objectives on the resultant system behavior can be wide-ranging and
unpredictable. In this paper we sketch a framework for documenting deployed
learning systems, which we call Reward Reports. Taking inspiration from various
contributions to the technical literature on reinforcement learning, we outline
Reward Reports as living documents that track updates to design choices and
assumptions behind what a particular automated system is optimizing for. They
are intended to track dynamic phenomena arising from system deployment, rather
than merely static properties of models or data. After presenting the elements
of a Reward Report, we provide three examples: DeepMind's MuZero, MovieLens,
and a hypothetical deployment of a Project Flow traffic control policy.
- Abstract(参考訳): 複雑な社会的影響に直面して優れたシステムを構築するためには、株式とアクセスに対する動的なアプローチが必要である。
機械学習(ML)ドキュメンテーションへの最近のアプローチは、これらの複雑さについて検討するための分散フレームワークの可能性を実証している。
しかしながら、これらの開発は静的MLパラダイムに基づいており、フィードバックやデプロイ後のパフォーマンスの役割は未検討のままである。
一方, 強化学習設計における最近の研究により, 最適化目標がシステム動作に与える影響は広範囲に及び予測不可能であることが示されている。
本稿では,Reward Reportsと呼ぶ,デプロイされた学習システムの文書化のためのフレームワークをスケッチする。
強化学習に関する技術文献への様々な貢献から着想を得て、リワードレポートを、特定の自動化システムが最適化しているものの背後にある設計選択や仮定の更新を追跡する、生きたドキュメントとして概説する。
それらは単にモデルやデータの静的な特性ではなく、システムデプロイメントから生じる動的現象を追跡することを目的としている。
Reward Reportの要素を提示した後、DeepMindのMuZero、MovieLens、Project Flowトラフィック制御ポリシーの仮説的な展開の3つの例を挙げる。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Enhanced Transformer architecture for in-context learning of dynamical systems [0.3749861135832073]
本稿では,従来のメタモデリングフレームワークを3つの重要な革新を通じて強化する。
これらの修正の有効性は、Wiener-Hammerstein系クラスに焦点をあてた数値的な例を通して示される。
論文 参考訳(メタデータ) (2024-10-04T10:05:15Z) - Making Text Embedders Few-Shot Learners [33.50993377494602]
本稿では,高品質なテキスト埋め込みを実現するために,少数の例を用いた新しいモデルbge-en-iclを提案する。
提案手法では,タスク関連例をクエリ側に直接統合することで,タスク間の大幅な改善を実現している。
MTEBおよびAIR-Benchベンチマークによる実験結果から,本手法がSOTA(State-of-the-art)性能を新たに設定することを示す。
論文 参考訳(メタデータ) (2024-09-24T03:30:19Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Relax: Composable Abstractions for End-to-End Dynamic Machine Learning [19.79913796167022]
本稿では、エンドツーエンドの動的機械学習ワークロードを最適化するためのコンパイラ抽象化であるRelaxを紹介する。
Relaxは、プログラム全体にわたって動的形状の計算を追跡するために、第一級の記号型アノテーションを導入した。
動的形状モデルを最適化するために提案手法を用いて,エンドツーエンドのコンパイルフレームワークを構築した。
論文 参考訳(メタデータ) (2023-11-01T23:03:59Z) - Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。
本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文 参考訳(メタデータ) (2023-06-16T08:13:41Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z) - Reinforcement Learning based Path Exploration for Sequential Explainable
Recommendation [57.67616822888859]
強化学習(TMER-RL)を活用した新しい時間的メタパスガイド型説明可能な勧告を提案する。
TMER-RLは, 動的知識グラフ上での動的ユーザ・イテム進化を逐次モデル化するために, 注意機構を持つ連続項目間の強化項目・イテムパスをモデル化する。
2つの実世界のデータセットに対するTMERの大規模な評価は、最近の強いベースラインと比較して最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2021-11-24T04:34:26Z) - OPAD: An Optimized Policy-based Active Learning Framework for Document
Content Analysis [6.159771892460152]
文書のコンテンツ検出タスクにおける能動的学習のための強化ポリシーを用いた新しいフレームワークであるtextitOPADを提案する。
フレームワークは、取得機能を学び、パフォーマンスメトリクスを最適化しながら、選択するサンプルを決定する。
本稿では,文書理解に関わる様々なタスクに対する能動的学習のためのテキストOPADフレームワークの優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-01T07:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。