論文の概要: Adaptable Text Matching via Meta-Weight Regulator
- arxiv url: http://arxiv.org/abs/2204.12668v1
- Date: Wed, 27 Apr 2022 02:28:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 13:07:29.598622
- Title: Adaptable Text Matching via Meta-Weight Regulator
- Title(参考訳): メタウェイトレギュレータによる適応型テキストマッチング
- Authors: Bo Zhang, Chen Zhang, Fang Ma, Dawei Song
- Abstract要約: メタウェイトレギュレータ(メタウェイトレギュレータ、MWR)は、目標損失との関連性に基づいて、ソースサンプルに重みを割り当てることを学ぶメタラーニングアプローチである。
MWRはまず、一様重み付きソースの例でモデルを訓練し、損失関数を用いて対象の例におけるモデルの有効性を測定する。
MWRはモデルに依存しないため、任意のバックボーンニューラルモデルに適用することができる。
- 参考スコア(独自算出の注目度): 14.619068650513917
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Neural text matching models have been used in a range of applications such as
question answering and natural language inference, and have yielded a good
performance. However, these neural models are of a limited adaptability,
resulting in a decline in performance when encountering test examples from a
different dataset or even a different task. The adaptability is particularly
important in the few-shot setting: in many cases, there is only a limited
amount of labeled data available for a target dataset or task, while we may
have access to a richly labeled source dataset or task. However, adapting a
model trained on the abundant source data to a few-shot target dataset or task
is challenging. To tackle this challenge, we propose a Meta-Weight Regulator
(MWR), which is a meta-learning approach that learns to assign weights to the
source examples based on their relevance to the target loss. Specifically, MWR
first trains the model on the uniformly weighted source examples, and measures
the efficacy of the model on the target examples via a loss function. By
iteratively performing a (meta) gradient descent, high-order gradients are
propagated to the source examples. These gradients are then used to update the
weights of source examples, in a way that is relevant to the target
performance. As MWR is model-agnostic, it can be applied to any backbone neural
model. Extensive experiments are conducted with various backbone text matching
models, on four widely used datasets and two tasks. The results demonstrate
that our proposed approach significantly outperforms a number of existing
adaptation methods and effectively improves the cross-dataset and cross-task
adaptability of the neural text matching models in the few-shot setting.
- Abstract(参考訳): ニューラルテキストマッチングモデルは、質問応答や自然言語推論などの様々なアプリケーションで使われており、優れた性能を示している。
しかし、これらのニューラルモデルは適応性が限られており、異なるデータセットや異なるタスクからテスト例に遭遇した場合のパフォーマンスが低下する。
多くの場合、ターゲットのデータセットやタスクで利用可能なラベル付きデータ量は限られていますが、リッチなラベル付きソースデータセットやタスクへのアクセスは可能です。
しかし、豊富なソースデータに基づいてトレーニングされたモデルを数ショットのターゲットデータセットやタスクに適用することは困難である。
この課題に取り組むために,メタ重み付けレギュレータ(mwr)を提案する。これは,対象の損失と関連性に基づいて,ソースサンプルに重み付けを割り当てることを学ぶメタ学習手法である。
具体的には、mwrはまず、一様重み付けされたソース例でモデルを訓練し、損失関数を介して対象例におけるモデルの有効性を測定する。
反復的に(メタ)勾配降下を行うことで、高次勾配が元の例に伝播する。
これらの勾配は、対象の性能に関連する方法で、ソース例の重み付けを更新するために使用される。
mwrはモデルに依存しないため、任意のバックボーン神経モデルに適用することができる。
様々なバックボーンテキストマッチングモデルを用いて、広く使われている4つのデータセットと2つのタスクを用いて大規模な実験を行う。
その結果,提案手法は既存の多くの適応手法を著しく上回り,数ショット設定でのニューラルテキストマッチングモデルのクロスデータセットおよびクロスタスク適応性を効果的に向上することを示した。
関連論文リスト
- Scalable Influence and Fact Tracing for Large Language Model Pretraining [14.598556308631018]
トレーニングデータ属性(TDA)メソッドは、特定のトレーニング例にモデル出力を振り返ることを目的としている。
本稿では,既存の勾配法を改良し,大規模に効果的に機能させる。
論文 参考訳(メタデータ) (2024-10-22T20:39:21Z) - Target-Aware Language Modeling via Granular Data Sampling [25.957424920194914]
言語モデルの事前訓練は、一般的に幅広いユースケースをターゲットにし、多様なソースからのデータを取り込む。
コスト効率が高く簡単なアプローチは、低次元のデータ特徴をサンプリングすることである。
事前学習したモデルはRefinedWebの全データと同等に動作し、125Mから1.5Bまでのモデルサイズに対してランダムに選択されたサンプルより優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-23T04:52:17Z) - Dynamic Data Mixing Maximizes Instruction Tuning for Mixture-of-Experts [20.202031878825153]
そこで本研究では,MoE命令チューニングのための新しい動的データ混合手法を提案する。
MoEのトークンルーティングの好みにインスパイアされた私たちは、データセットレベルの表現を構築し、データセット間の微妙な違いをキャプチャします。
2つのMoEモデルの結果は、下流の知識と推論タスクとオープンエンドクエリの両方に対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-06-17T06:47:03Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Synthetic Data Generation in Low-Resource Settings via Fine-Tuning of
Large Language Models [15.991777903345575]
大規模な言語モデルは、比較的少ないラベル付き例で下流タスクを一般化することができる。
あるいは、ラベル付きサンプルを十分に微調整すれば、より小さなモデルで特定のタスクを解くことができる。
我々は、より小さなモデルの下流性能を改善するために、微調整教師LEMを用いた微調整訓練データの合成データ生成について検討した。
論文 参考訳(メタデータ) (2023-10-02T11:49:05Z) - Informative Data Mining for One-Shot Cross-Domain Semantic Segmentation [84.82153655786183]
Informative Data Mining (IDM) と呼ばれる新しいフレームワークを提案し、セマンティックセグメンテーションのための効率的なワンショットドメイン適応を実現する。
IDMは、最も情報性の高いサンプルを特定するために不確実性に基づく選択基準を提供し、迅速に適応し、冗長なトレーニングを減らす。
提案手法は,GTA5/SYNTHIAからCityscapesへの適応タスクにおいて,既存の手法より優れ,56.7%/55.4%の最先端のワンショット性能を実現している。
論文 参考訳(メタデータ) (2023-09-25T15:56:01Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Adaptive Consistency Regularization for Semi-Supervised Transfer
Learning [31.66745229673066]
我々は,半教師付き学習と移動学習を共同で検討し,より実践的で競争的なパラダイムへと導いた。
事前学習した重みとラベルなしの目標サンプルの両方の価値をよりよく活用するために、適応整合正則化を導入する。
提案手法は,Pseudo Label,Mean Teacher,MixMatchといった,最先端の半教師付き学習技術より優れた適応整合性正規化を実現する。
論文 参考訳(メタデータ) (2021-03-03T05:46:39Z) - Meta-learning One-class Classifiers with Eigenvalue Solvers for
Supervised Anomaly Detection [55.888835686183995]
教師付き異常検出のためのニューラルネットワークに基づくメタラーニング手法を提案する。
提案手法は,既存の異常検出法や少数ショット学習法よりも優れた性能を実現することを実験的に実証した。
論文 参考訳(メタデータ) (2021-03-01T01:43:04Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。