論文の概要: Optimal Transport for Correctional Learning
- arxiv url: http://arxiv.org/abs/2304.01701v1
- Date: Tue, 4 Apr 2023 10:55:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 14:06:38.548893
- Title: Optimal Transport for Correctional Learning
- Title(参考訳): 矯正学習のための最適輸送
- Authors: Rebecka Winqvist, In\^es Lourenco, Francesco Quinzan, Cristian R.
Rojas, Bo Wahlberg
- Abstract要約: 補正学習はパラメータ推定プロセスの精度を高めるために開発されたフレームワークである。
このフレームワークでは、教師と呼ばれる専門家エージェントが、学生として知られる学習エージェントが使用するデータを変更して、その推定プロセスを改善する。
教師の目的は、学生の見積もりミスを最小限に抑えるようにデータを変更することである。
- 参考スコア(独自算出の注目度): 9.25190738506728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The contribution of this paper is a generalized formulation of correctional
learning using optimal transport, which is about how to optimally transport one
mass distribution to another. Correctional learning is a framework developed to
enhance the accuracy of parameter estimation processes by means of a
teacher-student approach. In this framework, an expert agent, referred to as
the teacher, modifies the data used by a learning agent, known as the student,
to improve its estimation process. The objective of the teacher is to alter the
data such that the student's estimation error is minimized, subject to a fixed
intervention budget. Compared to existing formulations of correctional
learning, our novel optimal transport approach provides several benefits. It
allows for the estimation of more complex characteristics as well as the
consideration of multiple intervention policies for the teacher. We evaluate
our approach on two theoretical examples, and on a human-robot interaction
application in which the teacher's role is to improve the robots performance in
an inverse reinforcement learning setting.
- Abstract(参考訳): 本論文の貢献は, 最適輸送を用いた補正学習の一般化であり, 一つの質量分布を他へ最適に輸送する方法である。
補正学習は教師・学生のアプローチによってパラメータ推定プロセスの精度を高めるために開発されたフレームワークである。
このフレームワークでは、教師と呼ばれる専門家エージェントが、学生として知られる学習エージェントが使用するデータを変更して、その推定プロセスを改善する。
教師の目標は、一定の介入予算に基づいて、生徒の推定誤差が最小となるようにデータを変更することである。
補正学習の既存の定式化と比較して,我々の新しい最適輸送アプローチにはいくつかの利点がある。
より複雑な特徴を推定できるだけでなく、教師のための複数の介入方針も考慮できる。
本稿では,2つの理論的事例と,逆強化学習環境におけるロボットの性能向上に教師の役割が果たす人間-ロボットインタラクションアプリケーションについて評価する。
関連論文リスト
- Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from
Imperfect Demonstration for Interactive Recommendation [23.048841953423846]
我々は、強化学習の基礎となる報奨学習の問題に焦点をあてる。
従来のアプローチでは、報酬を得るための追加の手順を導入するか、最適化の複雑さを増大させる。
所望の特性を実現するために, バッチ逆強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-30T13:43:20Z) - "You might think about slightly revising the title": identifying hedges
in peer-tutoring interactions [1.0466434989449724]
ヘッジは会話の相互作用の管理において重要な役割を果たす。
我々は、ヘッジを特定するための計算フレームワークを構築するために、マルチモーダルなピアチューニングデータセットを使用する。
我々は、ピアチューニング会話でヘッジを特徴付ける特徴を探索するために、モデル説明可能性ツールを使用します。
論文 参考訳(メタデータ) (2023-06-18T12:47:54Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - Explainable Action Advising for Multi-Agent Reinforcement Learning [32.49380192781649]
アクションアドバイザリング(Action Advising)とは、教師-学生パラダイムに基づく強化学習のための知識伝達技術である。
本稿では,教師がアクションアドバイスと関連する説明を提示し,アクションが選択された理由を説明するための説明可能なアクションアドバイスを紹介する。
これにより、学生は学んだことを自己認識し、一般化アドバイスを可能にし、サンプル効率と学習性能を向上させることができる。
論文 参考訳(メタデータ) (2022-11-15T04:15:03Z) - Unsupervised Domain Adaptive Person Re-Identification via Human Learning
Imitation [67.52229938775294]
近年、研究者は、異なる人物の再識別データセット間のドメインギャップを減らすために、教師学生フレームワークを彼らの手法に活用することを提案している。
近年の教員中心の枠組みに基づく手法に着想を得て,異なる側面から人間の学習過程を模倣するためのさらなる探究を提案する。
論文 参考訳(メタデータ) (2021-11-28T01:14:29Z) - A teacher-student framework for online correctional learning [12.980296933051509]
本研究では,教師の助けを借りて,学生の推定値のばらつきを減らしたことを示す。
オンラインの問題を定式化します - 教師は、観察を変更するかどうかを瞬時に決めなければならないのです。
この枠組みを数値実験で検証し、最適オンラインポリシーとバッチ設定のフレームワークを比較した。
論文 参考訳(メタデータ) (2021-11-15T15:01:00Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。
本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文 参考訳(メタデータ) (2021-10-01T00:27:47Z) - Distribution Matching for Machine Teaching [64.39292542263286]
機械学習の逆問題である機械学習は、学習者の目標仮説に向けて学習者を操ることを目的としている。
機械教育に関するこれまでの研究は、それらの最良の指導例を見つけるための教育のリスクとコストのバランスに重点を置いていた。
本稿では,分布マッチングに基づく機械教育戦略を提案する。
論文 参考訳(メタデータ) (2021-05-06T09:32:57Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。