論文の概要: Self-supervised Representation Learning with Relative Predictive Coding
- arxiv url: http://arxiv.org/abs/2103.11275v1
- Date: Sun, 21 Mar 2021 01:04:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 10:05:06.290573
- Title: Self-supervised Representation Learning with Relative Predictive Coding
- Title(参考訳): 相対予測符号化を用いた自己教師付き表現学習
- Authors: Yao-Hung Hubert Tsai, Martin Q. Ma, Muqiao Yang, Han Zhao,
Louis-Philippe Morency, Ruslan Salakhutdinov
- Abstract要約: Relative Predictive Coding(RPC)は、新しいコントラスト表現学習目標である。
RPCは、トレーニング安定性、ミニバッチサイズ感度、ダウンストリームタスクパフォーマンスのバランスが良好である。
ベンチマークビジョンと音声自己教師型学習タスクにおけるRPCの有効性を実証的に検証する。
- 参考スコア(独自算出の注目度): 102.93854542031396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces Relative Predictive Coding (RPC), a new contrastive
representation learning objective that maintains a good balance among training
stability, minibatch size sensitivity, and downstream task performance. The key
to the success of RPC is two-fold. First, RPC introduces the relative
parameters to regularize the objective for boundedness and low variance.
Second, RPC contains no logarithm and exponential score functions, which are
the main cause of training instability in prior contrastive objectives. We
empirically verify the effectiveness of RPC on benchmark vision and speech
self-supervised learning tasks. Lastly, we relate RPC with mutual information
(MI) estimation, showing RPC can be used to estimate MI with low variance.
- Abstract(参考訳): 本稿では,トレーニング安定性,ミニバッチサイズ感度,ダウンストリームタスクパフォーマンスのバランスを良好に保った,新しいコントラスト表現学習目標である相対予測符号化(rpc)を提案する。
RPCの成功の鍵は2つある。
まず、RPCは、境界性と低分散の目的を規則化する相対パラメータを導入します。
第2に、RPCには対数や指数スコア関数がなく、これは事前のコントラスト目的におけるトレーニング不安定性の主な原因である。
ベンチマークビジョンと自己教師型学習タスクにおけるRPCの有効性を実証的に検証する。
最後に、RPCと相互情報(MI)推定を関連付け、低分散のMIを推定するためにRPCを使用できることを示す。
関連論文リスト
- Efficient Recurrent Off-Policy RL Requires a Context-Encoder-Specific Learning Rate [4.6659670917171825]
リカレント強化学習(RL)は、観測不能な状態予測のためのリカレントニューラルネットワーク(RNN)に基づくコンテキストエンコーダである。
従来のRL法は、RNNの勾配不安定性に起因する訓練安定性の問題に直面していた。
本稿では,この問題を解決するために,コンテキストエンコーダ特化学習率(RESeL)を用いたリカレントオフ政治RLを提案する。
論文 参考訳(メタデータ) (2024-05-24T09:33:47Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - Directly Attention Loss Adjusted Prioritized Experience Replay [0.07366405857677226]
優先度付き再生体験(PER)は、アクセス頻度を人工的に変化させることで、比較的重要なサンプルについてより深く学習することを可能にする。
DALAPが提案され、パラレル自己保持ネットワークを通じて、シフト分布の変化範囲を直接定量化することができる。
論文 参考訳(メタデータ) (2023-11-24T10:14:05Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Continual Contrastive Finetuning Improves Low-Resource Relation
Extraction [34.76128090845668]
関係抽出は低リソースのシナリオやドメインでは特に困難である。
近年の文献は自己教師型学習によって低リソースREに取り組みつつある。
コントラスト学習の一貫した目的を用いたREモデルの事前学習と微調整を提案する。
論文 参考訳(メタデータ) (2022-12-21T07:30:22Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - RMIX: Learning Risk-Sensitive Policies for Cooperative Reinforcement
Learning Agents [40.51184157538392]
本研究では, 個人Q値の学習分布に対して, CVaR (Conditional Value at Risk) を用いた新しいMARL法を提案する。
本手法は、StarCraft IIタスクに挑む最先端の手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-02-16T13:58:25Z) - Strategy for Boosting Pair Comparison and Improving Quality Assessment
Accuracy [29.849156371902943]
ペア比較(PC)は、差別性の観点からは絶対カテゴリー評価(ACR)に対して大きな利点がある。
本研究では,ペア比較データとACRデータをブリッジする汎用モデルを用いて,分散項を復元し,得られた情報がより完全であることを示す。
このようにして、提案手法はペア比較の精度を同等に向上するが、ACRほど高い包括性を達成できる。
論文 参考訳(メタデータ) (2020-10-01T13:05:09Z) - Robust Learning Through Cross-Task Consistency [92.42534246652062]
クロスタスク整合性を用いた学習向上のための,広く適用可能な完全計算手法を提案する。
クロスタスク一貫性による学習は,より正確な予測と,アウト・オブ・ディストリビューション・インプットの一般化につながることを観察する。
論文 参考訳(メタデータ) (2020-06-07T09:24:33Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。