論文の概要: Reward Reports for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2204.10817v3
- Date: Mon, 20 Mar 2023 03:39:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 04:47:40.554264
- Title: Reward Reports for Reinforcement Learning
- Title(参考訳): 強化学習に対する報酬報告
- Authors: Thomas Krendl Gilbert, Nathan Lambert, Sarah Dean, Tom Zick and Aaron
Snoswell
- Abstract要約: デプロイおよび反復的に更新された学習システムの文書化のためのフレームワークをスケッチし、それをReward Reportsと呼ぶ。
強化学習に関する技術文献への様々な貢献からインスピレーションを得て、リワードレポートを、特定の自動化システムが最適化しているものの背後にある設計選択や仮定の更新を追跡する、生きたドキュメントとして概説する。
- 参考スコア(独自算出の注目度): 3.7568608766189597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building systems that are good for society in the face of complex societal
effects requires a dynamic approach. Recent approaches to machine learning (ML)
documentation have demonstrated the promise of discursive frameworks for
deliberation about these complexities. However, these developments have been
grounded in a static ML paradigm, leaving the role of feedback and
post-deployment performance unexamined. Meanwhile, recent work in reinforcement
learning has shown that the effects of feedback and optimization objectives on
system behavior can be wide-ranging and unpredictable. In this paper we sketch
a framework for documenting deployed and iteratively updated learning systems,
which we call Reward Reports. Taking inspiration from various contributions to
the technical literature on reinforcement learning, we outline Reward Reports
as living documents that track updates to design choices and assumptions behind
what a particular automated system is optimizing for. They are intended to
track dynamic phenomena arising from system deployment, rather than merely
static properties of models or data. After presenting the elements of a Reward
Report, we discuss a concrete example: Meta's BlenderBot 3 chatbot. Several
others for game-playing (DeepMind's MuZero), content recommendation
(MovieLens), and traffic control (Project Flow) are included in the appendix.
- Abstract(参考訳): 複雑な社会的効果に直面して社会に良いシステムを構築するには、動的なアプローチが必要です。
機械学習(ML)ドキュメンテーションへの最近のアプローチは、これらの複雑さについて検討するための分散フレームワークの可能性を実証している。
しかしながら、これらの開発は静的MLパラダイムに基づいており、フィードバックやデプロイ後のパフォーマンスの役割は未検討のままである。
一方、強化学習における最近の研究は、フィードバックと最適化目標がシステム行動に与える影響は広く予測不可能であることを示している。
本稿では,デプロイおよび反復的に更新される学習システムを文書化するためのフレームワークをスケッチする。
強化学習に関する技術文献への様々な貢献から着想を得て、リワードレポートを、特定の自動化システムが最適化しているものの背後にある設計選択や仮定の更新を追跡する、生きたドキュメントとして概説する。
それらは単にモデルやデータの静的な特性ではなく、システムデプロイメントから生じる動的現象を追跡することを目的としている。
報奨レポートの要素を提示した後、具体的な例について論じる。metaのblenderbot 3 chatbot。
ゲームプレイ用(DeepMindのMuZero)、コンテンツレコメンデーション用(MovieLens)、トラフィック制御用(Project Flow)などが付録に含まれている。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Enhanced Transformer architecture for in-context learning of dynamical systems [0.3749861135832073]
本稿では,従来のメタモデリングフレームワークを3つの重要な革新を通じて強化する。
これらの修正の有効性は、Wiener-Hammerstein系クラスに焦点をあてた数値的な例を通して示される。
論文 参考訳(メタデータ) (2024-10-04T10:05:15Z) - Making Text Embedders Few-Shot Learners [33.50993377494602]
本稿では,高品質なテキスト埋め込みを実現するために,少数の例を用いた新しいモデルbge-en-iclを提案する。
提案手法では,タスク関連例をクエリ側に直接統合することで,タスク間の大幅な改善を実現している。
MTEBおよびAIR-Benchベンチマークによる実験結果から,本手法がSOTA(State-of-the-art)性能を新たに設定することを示す。
論文 参考訳(メタデータ) (2024-09-24T03:30:19Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Relax: Composable Abstractions for End-to-End Dynamic Machine Learning [19.79913796167022]
本稿では、エンドツーエンドの動的機械学習ワークロードを最適化するためのコンパイラ抽象化であるRelaxを紹介する。
Relaxは、プログラム全体にわたって動的形状の計算を追跡するために、第一級の記号型アノテーションを導入した。
動的形状モデルを最適化するために提案手法を用いて,エンドツーエンドのコンパイルフレームワークを構築した。
論文 参考訳(メタデータ) (2023-11-01T23:03:59Z) - Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。
本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文 参考訳(メタデータ) (2023-06-16T08:13:41Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z) - Reinforcement Learning based Path Exploration for Sequential Explainable
Recommendation [57.67616822888859]
強化学習(TMER-RL)を活用した新しい時間的メタパスガイド型説明可能な勧告を提案する。
TMER-RLは, 動的知識グラフ上での動的ユーザ・イテム進化を逐次モデル化するために, 注意機構を持つ連続項目間の強化項目・イテムパスをモデル化する。
2つの実世界のデータセットに対するTMERの大規模な評価は、最近の強いベースラインと比較して最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2021-11-24T04:34:26Z) - OPAD: An Optimized Policy-based Active Learning Framework for Document
Content Analysis [6.159771892460152]
文書のコンテンツ検出タスクにおける能動的学習のための強化ポリシーを用いた新しいフレームワークであるtextitOPADを提案する。
フレームワークは、取得機能を学び、パフォーマンスメトリクスを最適化しながら、選択するサンプルを決定する。
本稿では,文書理解に関わる様々なタスクに対する能動的学習のためのテキストOPADフレームワークの優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-01T07:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。