Fugu-MT 論文翻訳(概要): WALNUT: A Benchmark on Weakly Supervised Learning for Natural Language Understanding

論文の概要: WALNUT: A Benchmark on Weakly Supervised Learning for Natural Language Understanding

arxiv url: http://arxiv.org/abs/2108.12603v1
Date: Sat, 28 Aug 2021 08:33:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-31 14:58:35.167134
Title: WALNUT: A Benchmark on Weakly Supervised Learning for Natural Language Understanding
Title（参考訳）: WALNUT: 自然言語理解のための弱教師付き学習ベンチマーク
Authors: Guoqing Zheng, Giannis Karamanolakis, Kai Shu, Ahmed Hassan Awadallah
Abstract要約: 大量のラベル付きデータが利用できない、あるいは入手に費用がかかる場合、弱監視は貴重な監視を提供する。現在までに、NLUタスクのコレクションに対する現実の弱い監視信号を持つNLUのベンチマークは、まだ利用できない。我々は,NLUの弱監督研究を提唱し,促進するため,WALNUTというベンチマークを提案する。
参考スコア（独自算出の注目度）: 29.139988288459122
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Building quality machine learning models for natural language understanding (NLU) tasks relies heavily on labeled data. Weak supervision has been shown to provide valuable supervision when large amount of labeled data is unavailable or expensive to obtain. Existing works studying weak supervision for NLU either mostly focus on a specific task or simulate weak supervision signals from ground-truth labels. To date a benchmark for NLU with real world weak supervision signals for a collection of NLU tasks is still not available. In this paper, we propose such a benchmark, named WALNUT, to advocate and facilitate research on weak supervision for NLU. WALNUT consists of NLU tasks with different types, including both document-level prediction tasks and token-level prediction tasks and for each task contains weak labels generated by multiple real-world weak sources. We conduct baseline evaluations on the benchmark to systematically test the value of weak supervision for NLU tasks, with various weak supervision methods and model architectures. We demonstrate the benefits of weak supervision for low-resource NLU tasks and expect WALNUT to stimulate further research on methodologies to best leverage weak supervision. The benchmark and code for baselines will be publicly available at aka.ms/walnut_benchmark.
Abstract（参考訳）: 自然言語理解(nlu)タスクのための高品質な機械学習モデルの構築は、ラベル付きデータに大きく依存する。大量のラベル付きデータが入手できない、あるいは入手に費用がかかる場合、弱みの監視が貴重な監視を提供することが示されている。 NLUの弱い監督を研究する研究は、主に特定のタスクに焦点をあてるか、または地上の真実のラベルから弱い監督信号をシミュレートする。現在までに、NLUタスクのコレクションに対する現実の弱い監視信号を持つNLUのベンチマークは、まだ利用できない。本稿では,NLUの弱監督研究を提唱し,促進するため,WALNUTというベンチマークを提案する。 WALNUTは、文書レベルの予測タスクとトークンレベルの予測タスクの両方を含む異なるタイプのNLUタスクで構成され、各タスクには複数の現実世界の弱いソースによって生成される弱いラベルが含まれている。我々は,NLUタスクの弱い監督手法とモデルアーキテクチャを用いて,ベンチマークのベースライン評価を行い,弱い監督手法の価値を体系的に検証する。我々は、低リソースのNLUタスクに対する弱い監督の利点を実証し、WALNUTが弱い監督を最大限活用するための方法論のさらなる研究を促進することを期待する。ベースラインのベンチマークとコードは、aka.ms/walnut_benchmarkで公開される。

関連論文リスト

Understanding LLMs' Fluid Intelligence Deficiency: An Analysis of the ARC Task [71.61879949813998]
認知研究において、後者の能力は流体インテリジェンスと呼ばれ、人間のインテリジェンスを評価するために重要であると考えられている。流体インテリジェンス評価に関する最近の研究は、LLMの能力に重大な欠陥を浮き彫りにした。本研究は,既存のLSMにおいて,スキル構成能力の制限,抽象的な入力形式に慣れていないこと,左から右への復号化の本質的欠如の3つの大きな限界を明らかにした。
論文参考訳（メタデータ） (2025-02-11T02:31:09Z)
Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。 LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文参考訳（メタデータ） (2025-01-24T06:39:38Z)
Guiding Through Complexity: What Makes Good Supervision for Hard Reasoning Tasks? [74.88417042125985]
複雑さの異なるタスクにおいて、様々な品質レベルで監視データを提供する様々なデータ駆動戦略について検討する。ハードタスクの監視における結果エラー率が高い場合でも、そのようなデータによるトレーニングは、より簡単なサブタスクの監督を完璧に上回ります。また,本研究の結果から,タスク・インスペクションとサブタスク・インスペクションを補完することで,顕著なパフォーマンス向上が期待できることがわかった。
論文参考訳（メタデータ） (2024-10-27T17:55:27Z)
Improving Weak-to-Strong Generalization with Reliability-Aware Alignment [22.754757518792395]
大規模言語モデル(LLM)は、多くの自然言語タスクにおいて急速に進歩し、人間の能力を上回っている。「超配向」問題には弱強一般化の強化が必要である。本稿では、弱い監視信号の信頼性を伴って、弱い対強の一般化を改善する手法を提案する。
論文参考訳（メタデータ） (2024-06-27T09:37:34Z)
Security Vulnerability Detection with Multitask Self-Instructed Fine-Tuning of Large Language Models [8.167614500821223]
脆弱性検出のためのMSIVD, マルチタスクによる自己指示型微調整を, チェーン・オブ・シント・プロンプトとLDMによる自己指示にインスパイアした。実験の結果,MSIVDは高い性能を示し,LineVul(LLMベースの脆弱性検出ベースライン)はBigVulデータセットでは0.92点,PreciseBugsデータセットでは0.48点であった。
論文参考訳（メタデータ） (2024-06-09T19:18:05Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
A General Framework for Learning from Weak Supervision [93.89870459388185]
本稿では、新しいアルゴリズムを用いて、弱監督(GLWS)から学習するための一般的な枠組みを紹介する。 GLWSの中心は期待最大化(EM)の定式化であり、様々な弱い監督源を順応的に収容している。また,EM計算要求を大幅に単純化する高度なアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-02-02T21:48:50Z)
Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文参考訳（メタデータ） (2023-06-07T17:47:03Z)
Low Resource Pipeline for Spoken Language Understanding via Weak Supervision [5.9901156966011975]
Weak Supervised Learning (WSL)では、セマンティックルールとタスク固有の事前学習モデルから得られたノイズの多いラベルに基づいてモデルを訓練する。タスク非依存のプロンプトは一般化可能であり,様々な音声言語理解(SLU)タスクのノイズラベルを得るのに利用できることを示す。そこで我々は,SLUタスクの信頼ラベルを生成するプロンプトベースの手法を,ラベル付きデータがない場合に,弱教師付きモデル(WSM)を訓練するための普遍的な弱い情報源として利用することができることを示した。
論文参考訳（メタデータ） (2022-06-21T17:36:31Z)
CLUES: Few-Shot Learning Evaluation in Natural Language Understanding [81.63968985419982]
我々は,NLUモデルの少数ショット学習能力を評価するためのベンチマークであるCLUESを紹介する。近年のモデルでは,大量のラベル付きデータにアクセスすると人的パフォーマンスが向上するが,ほとんどのタスクにおいて数ショット設定では,パフォーマンスに大きなギャップが生じることが実証された。
論文参考訳（メタデータ） (2021-11-04T00:43:15Z)
Learning to Selectively Learn for Weakly-supervised Paraphrase Generation [81.65399115750054]
弱監督データを用いた高品質なパラフレーズを生成するための新しい手法を提案する。具体的には、弱制御されたパラフレーズ生成問題に以下のように取り組む。検索に基づく擬似パラフレーズ展開により、豊富なラベル付き並列文を得る。提案手法は,既存の教師なしアプローチよりも大幅に改善され,教師付き最先端技術と同等の性能を示す。
論文参考訳（メタデータ） (2021-09-25T23:31:13Z)
Self-Training with Weak Supervision [32.68342091430266]
最先端のディープニューラルネットワークには、多くのタスクで入手するのに高価な大規模なラベル付きトレーニングデータが必要です。ドメイン固有のルールの形での弱い監視は、そのような設定で有用であることが示されている。我々は、与えられたタスクに利用可能なすべてのデータを活用する弱い監視フレームワーク(ASTRA)を開発する。
論文参考訳（メタデータ） (2021-04-12T14:45:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。