論文の概要: Learn to Talk via Proactive Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2008.10077v1
- Date: Sun, 23 Aug 2020 17:46:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 02:37:53.445184
- Title: Learn to Talk via Proactive Knowledge Transfer
- Title(参考訳): プロアクティブな知識伝達を通して話すことを学ぶ
- Authors: Qing Sun and James Cross
- Abstract要約: 我々は知識伝達をKL分割最小化(すなわち学習者と教師の信念分布の一致)に関連付ける。
等価性は、KL-発散の変種を理解するための新しい視点を与える。
WMT'17 De-En と IWSLT'15 Th-En の機械翻訳タスクで +0.7-1.1 BLEU が得られた。
- 参考スコア(独自算出の注目度): 11.364531011947365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Transfer has been applied in solving a wide variety of problems.
For example, knowledge can be transferred between tasks (e.g., learning to
handle novel situations by leveraging prior knowledge) or between agents (e.g.,
learning from others without direct experience). Without loss of generality, we
relate knowledge transfer to KL-divergence minimization, i.e., matching the
(belief) distributions of learners and teachers. The equivalence gives us a new
perspective in understanding variants of the KL-divergence by looking at how
learners structure their interaction with teachers in order to acquire
knowledge. In this paper, we provide an in-depth analysis of KL-divergence
minimization in Forward and Backward orders, which shows that learners are
reinforced via on-policy learning in Backward. In contrast, learners are
supervised in Forward. Moreover, our analysis is gradient-based, so it can be
generalized to arbitrary tasks and help to decide which order to minimize given
the property of the task. By replacing Forward with Backward in Knowledge
Distillation, we observed +0.7-1.1 BLEU gains on the WMT'17 De-En and IWSLT'15
Th-En machine translation tasks.
- Abstract(参考訳): 知識伝達は様々な問題を解決するために応用されている。
例えば、知識はタスク(例えば、以前の知識を利用して新しい状況に対処する学習)とエージェント(例えば、直接経験のない他人から学ぶ)の間で伝達される。
一般性を欠くことなく、知識伝達とKL分割最小化、すなわち学習者と教師の(信頼)分布のマッチングを関連付ける。
等価性は、学習者が知識を得るために教師との相互作用をどのように構成するかを検討することで、KL分割の変種を理解する新しい視点を与える。
本稿では,KL分割最小化をフォワードとバックワードの順序で詳細に分析し,学習者はバックワードのオン政治学習を通じて強化されることを示す。
一方、学習者はフォワードで指導される。
さらに,解析は勾配ベースであるため,任意のタスクに一般化でき,そのタスクの性質を考慮すれば,どの順序を最小にするかを決定するのに役立つ。
WMT'17 De-En と IWSLT'15 Th-En の機械翻訳タスクで +0.7-1.1 BLEU が得られた。
関連論文リスト
- Learning Beyond Pattern Matching? Assaying Mathematical Understanding in LLMs [58.09253149867228]
本稿では,LLMのドメイン知識を,問題解決に必要な数学的スキルの理解を通じて評価する。
汎用科学アシスタントとしてLLMを用いることで, LLMの確率分布の変化を評価するためにtextitNTKEvalを提案する。
系統的な分析では、文脈内学習中にドメイン理解の証拠が見つかる。
ある命令チューニングは、異なるデータでのトレーニングに関係なく、同様のパフォーマンス変化をもたらし、異なるスキルに対するドメイン理解の欠如を示唆している。
論文 参考訳(メタデータ) (2024-05-24T12:04:54Z) - Online Continual Learning via the Knowledge Invariant and Spread-out
Properties [4.109784267309124]
継続的な学習の鍵となる課題は破滅的な忘れ方だ。
知識不変性とスプレッドアウト特性(OCLKISP)を用いたオンライン連続学習法を提案する。
提案手法を,CIFAR 100, Split SVHN, Split CUB200, Split Tiny-Image-Netの4つのベンチマークで実証的に評価した。
論文 参考訳(メタデータ) (2023-02-02T04:03:38Z) - Beyond Not-Forgetting: Continual Learning with Backward Knowledge
Transfer [39.99577526417276]
継続学習(CL)では、エージェントは、新しいタスクと古いタスクの両方の学習性能を向上させることができる。
既存のCL手法の多くは、古いタスクに対する学習モデルの修正を最小化することによって、ニューラルネットワークの破滅的な忘れに対処することに焦点を当てている。
データ再生のない固定容量ニューラルネットワークに対して,バックワードノウルEdge tRansfer (CUBER) を用いた新しいCL法を提案する。
論文 参考訳(メタデータ) (2022-11-01T23:55:51Z) - Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z) - A Theory for Knowledge Transfer in Continual Learning [7.056222499095849]
タスクの継続的な学習は、ディープニューラルネットワークの活発な領域である。
最近の研究は、新しいタスクへのフォワード・ナレッジ・トランスファーについて研究している。
連続的な教師付き学習における知識伝達の理論を提案する。
論文 参考訳(メタデータ) (2022-08-14T22:28:26Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Transferability in Deep Learning: A Survey [80.67296873915176]
知識を習得し再利用する能力は、ディープラーニングにおける伝達可能性として知られている。
本研究は,深層学習における異なる孤立領域と伝達可能性との関係を関連付けるための調査である。
我々はベンチマークとオープンソースライブラリを実装し、転送可能性の観点からディープラーニング手法の公平な評価を可能にする。
論文 参考訳(メタデータ) (2022-01-15T15:03:17Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Learning Transferable Concepts in Deep Reinforcement Learning [0.7161783472741748]
感覚入力の離散的な表現を学習することで、複数のタスクに共通するハイレベルな抽象化が得られることを示す。
特に,情報理論のアプローチに従って,自己超越によってそのような表現を学習することは可能であることを示す。
本手法は, 未知タスクと未知タスクの両方において, サンプル効率を高めるための, 機関車および最適制御タスクの概念を学習することができる。
論文 参考訳(メタデータ) (2020-05-16T04:45:51Z) - Transfer Heterogeneous Knowledge Among Peer-to-Peer Teammates: A Model
Distillation Approach [55.83558520598304]
本研究は, モデル蒸留により, 複数の学生間で経験と伝達値関数を再利用する新しい手法を提案する。
また、異種知識を活用するための効率的な通信プロトコルの設計方法について述べる。
提案するフレームワークである学習・指導カテゴリー強化は,学習の進捗を安定化・加速する上で有望な性能を示す。
論文 参考訳(メタデータ) (2020-02-06T11:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。