Fugu-MT 論文翻訳(概要): Generalized Reinforcement Meta Learning for Few-Shot Optimization

論文の概要: Generalized Reinforcement Meta Learning for Few-Shot Optimization

arxiv url: http://arxiv.org/abs/2005.01246v1
Date: Mon, 4 May 2020 03:21:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-06 23:53:39.833026
Title: Generalized Reinforcement Meta Learning for Few-Shot Optimization
Title（参考訳）: ファウショット最適化のための一般化強化メタ学習
Authors: Raviteja Anantha, Stephen Pulman, and Srinivas Chappidi
Abstract要約: 本稿では, 汎用的かつ柔軟な強化学習(RL)に基づくメタラーニングフレームワークを提案する。我々のフレームワークは簡単にネットワークアーキテクチャ検索に拡張できる。
参考スコア（独自算出の注目度）: 3.7675996866306845
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a generic and flexible Reinforcement Learning (RL) based meta-learning framework for the problem of few-shot learning. During training, it learns the best optimization algorithm to produce a learner (ranker/classifier, etc) by exploiting stable patterns in loss surfaces. Our method implicitly estimates the gradients of a scaled loss function while retaining the general properties intact for parameter updates. Besides providing improved performance on few-shot tasks, our framework could be easily extended to do network architecture search. We further propose a novel dual encoder, affinity-score based decoder topology that achieves additional improvements to performance. Experiments on an internal dataset, MQ2007, and AwA2 show our approach outperforms existing alternative approaches by 21%, 8%, and 4% respectively on accuracy and NDCG metrics. On Mini-ImageNet dataset our approach achieves comparable results with Prototypical Networks. Empirical evaluations demonstrate that our approach provides a unified and effective framework.
Abstract（参考訳）: 本稿では,数発学習問題に対する汎用的・柔軟な強化学習(rl)ベースのメタ学習フレームワークを提案する。トレーニング中、損失面の安定したパターンを利用して学習者(ランカ/クラシファイアなど)を生成するための最適化アルゴリズムを学習する。本手法は,パラメータ更新のための一般プロパティを保持しつつ,スケールド損失関数の勾配を暗黙的に推定する。数ショットタスクのパフォーマンス向上に加えて、我々のフレームワークは簡単にネットワークアーキテクチャ検索に拡張できる。さらに,性能向上を図った新しいデュアルエンコーダ,親和性スコアに基づくデコーダトポロジを提案する。内部データセット MQ2007 と AwA2 の実験では、既存の代替手法よりも21%、8%、4% で、それぞれ精度と NDCG の指標で優れています。ミニイメージネットデータセットでは、このアプローチはプロトタイプネットワークと同等の結果を得る。実証的な評価は、我々のアプローチが統一的で効果的なフレームワークを提供することを示している。

関連論文リスト

Improving Deep Knowledge Tracing via Gated Architectures and Adaptive Optimization [0.0]
Deep Knowledge Tracing (DKT) は、Recurrent Networks (RNN) を用いて学生の学習行動をモデル化し、過去のインタラクションデータに基づいて将来のパフォーマンスを予測する。本稿では、アーキテクチャ改善と最適化という2つの観点からDKTモデルを再考する。まず、ゲートリカレントユニット、特にLong Short-Term Memory(LSTM)ネットワークとGated Recurrent Units(GRU)を用いてモデルを強化する。次に、PyTorchフレームワークを使用してDKTを再実装し、モダンなディープラーニングと互換性のあるモジュラーでアクセス可能なインフラを実現する。
論文参考訳（メタデータ） (2025-04-24T14:24:31Z)
Distributionally Robust Reinforcement Learning with Human Feedback [13.509499718691016]
大規模言語モデルを微調整するための分散ロバストなRLHFを提案する。我々のゴールは、プロンプトの分布が著しく異なる場合でも、微調整モデルがその性能を維持することである。我々は,学習した報酬モデルの精度を平均で向上し,推論などのタスクにおいて顕著に向上することを示す。
論文参考訳（メタデータ） (2025-03-01T15:43:39Z)
Towards Robust Out-of-Distribution Generalization: Data Augmentation and Neural Architecture Search Approaches [4.577842191730992]
我々は、ディープラーニングのための堅牢なOoD一般化への道を探る。まず,認識に必須でない特徴間の素早い相関を解消するための,新しい効果的なアプローチを提案する。次に,OoDシナリオにおけるニューラルアーキテクチャ探索の強化問題について検討する。
論文参考訳（メタデータ） (2024-10-25T20:50:32Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。 CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文参考訳（メタデータ） (2023-06-01T12:53:10Z)
Learning Large-scale Neural Fields via Context Pruned Meta-Learning [60.93679437452872]
本稿では,大規模ニューラルネットワーク学習のための最適化に基づくメタラーニング手法を提案する。メタテスト時間における勾配再スケーリングは、非常に高品質なニューラルネットワークの学習を可能にすることを示す。我々のフレームワークは、モデルに依存しない、直感的で、実装が容易であり、幅広い信号に対する大幅な再構成改善を示す。
論文参考訳（メタデータ） (2023-02-01T17:32:16Z)
Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文参考訳（メタデータ） (2022-11-18T02:00:17Z)
Deep Active Ensemble Sampling For Image Classification [8.31483061185317]
アクティブラーニングフレームワークは、最も有益なデータポイントのラベル付けを積極的に要求することで、データアノテーションのコストを削減することを目的としている。提案手法には、不確実性に基づく手法、幾何学的手法、不確実性に基づく手法と幾何学的手法の暗黙の組み合わせなどがある。本稿では, サンプル選択戦略における効率的な探索・探索トレードオフを実現するために, 不確実性に基づくフレームワークと幾何学的フレームワークの両方の最近の進歩を革新的に統合する。本フレームワークは,(1)正確な後続推定,(2)計算オーバーヘッドと高い精度のトレードオフの2つの利点を提供する。
論文参考訳（メタデータ） (2022-10-11T20:20:20Z)
Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文参考訳（メタデータ） (2022-10-02T05:03:38Z)
Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文参考訳（メタデータ） (2020-10-01T15:59:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。