論文の概要: Stronger Than You Think: Benchmarking Weak Supervision on Realistic Tasks
- arxiv url: http://arxiv.org/abs/2501.07727v1
- Date: Mon, 13 Jan 2025 22:29:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:28:47.335140
- Title: Stronger Than You Think: Benchmarking Weak Supervision on Realistic Tasks
- Title(参考訳): あなたの考えるよりも強い - 現実的なタスクに関するベンチマークの弱さ
- Authors: Tianyi Zhang, Linrong Cai, Jeffrey Li, Nicholas Roberts, Neel Guha, Jinoh Lee, Frederic Sala,
- Abstract要約: 弱監督 (WS) はラベル効率の学習において一般的な手法であり、様々なノイズがあるが安価なラベルを用いて自動的にトレーニングデータに注釈を付ける。
広く使われているにもかかわらず、WSとその実践的価値は、そのセットアップに多くのノブがあるため、ベンチマークするのは難しいです。
我々は、WSの実際の利用をより正確に反映するように設計された新しいベンチマークであるBOXWRENCHを紹介します。
- 参考スコア(独自算出の注目度): 19.49705185032905
- License:
- Abstract: Weak supervision (WS) is a popular approach for label-efficient learning, leveraging diverse sources of noisy but inexpensive weak labels to automatically annotate training data. Despite its wide usage, WS and its practical value are challenging to benchmark due to the many knobs in its setup, including: data sources, labeling functions (LFs), aggregation techniques (called label models), and end model pipelines. Existing evaluation suites tend to be limited, focusing on particular components or specialized use cases. Moreover, they often involve simplistic benchmark tasks or de-facto LF sets that are suboptimally written, producing insights that may not generalize to real-world settings. We address these limitations by introducing a new benchmark, BOXWRENCH, designed to more accurately reflect real-world usages of WS. This benchmark features tasks with (1) higher class cardinality and imbalance, (2) notable domain expertise requirements, and (3) multilingual variations across parallel corpora. For all tasks, LFs are written using a careful procedure aimed at mimicking real-world settings. In contrast to existing WS benchmarks, we show that supervised learning requires substantial amounts (1000+) of labeled examples to match WS in many settings.
- Abstract(参考訳): 弱監督 (WS) はラベル効率の学習において一般的な手法であり、様々なノイズがあるが安価なラベルを用いてトレーニングデータを自動的にアノテートする。
広く使われているにもかかわらず、WSとその実用価値は、データソース、ラベル付け機能(LF)、集約技術(ラベルモデルと呼ばれる)、エンドモデルパイプラインなど、多くのノブが設定されているため、ベンチマークが難しい。
既存の評価スイートは限定的であり、特定のコンポーネントや特殊なユースケースに重点を置いている。
さらに、それらはしばしば、単純化されたベンチマークタスクや、サブ最適に書かれたLFセットをデファクトし、現実世界の設定に一般化できない洞察を生み出す。
私たちはこれらの制限に対処するために、WSの実際の使用をより正確に反映するように設計された新しいベンチマークであるBOXWRENCHを導入しました。
本ベンチマークでは,(1)高次濃度と不均衡,(2)特筆すべきドメイン専門知識要件,(3)並列コーパス間の多言語変動といったタスクを特徴とする。
すべてのタスクに対して、LFは現実世界の設定を模倣するための注意深い手順を使って書かれています。
既存のWSベンチマークとは対照的に、多くの設定でWSと一致させるためには、教師付き学習には大量のラベル付き例(1000以上)が必要であることを示す。
関連論文リスト
- Enhancing Unsupervised Graph Few-shot Learning via Set Functions and Optimal Transport [23.36436403062214]
グラフ数ショット学習モデルの最近の進歩は、様々なアプリケーションにまたがって優れた性能を示している。
本稿では,教師なしグラフ数ショット学習を強化するSTARという新しいモデルを提案する。
論文 参考訳(メタデータ) (2025-01-10T00:42:27Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension [62.40482764691584]
MLLMのテキストに富んだ視覚的理解を評価するためのベンチマークSEED-Bench-2-Plusを紹介する。
私たちのベンチマークでは、チャート、マップ、ウェブの3つのカテゴリにまたがる、正確な人間のアノテーションによる2.3Kの多重選択質問で構成されています。
我々は,34の著名なMLLMを包含する徹底的な評価を行い,テキストリッチ視覚理解におけるMLLMの現在の限界を強調した。
論文 参考訳(メタデータ) (2024-04-25T17:39:35Z) - Universal Self-Adaptive Prompting [60.67460565566514]
Universal Self-Adaptive Prompting (USP) はゼロショット学習に適した自動プロンプト設計手法である。
USPは普遍的なプロンプトを達成するために、可能なNLPタスクを3つの可能なタスクタイプのうちの1つに分類する。
我々は,PaLMおよびPaLM 2モデルを用いてUSPを評価し,標準ゼロショットベースラインよりもかなり強い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T09:09:48Z) - Towards Practical Few-Shot Query Sets: Transductive Minimum Description
Length Inference [0.0]
そこで本研究では,PrimAl Dual Minimum Description LEngth (PADDLE) の定式化について述べる。
制約のあるMDLライクな目的は、いくつかのタスクのデータに適合する有効なクラスのみを保ちながら、起こりうる多数のクラス間の競争を促進する。
論文 参考訳(メタデータ) (2022-10-26T08:06:57Z) - AutoWS-Bench-101: Benchmarking Automated Weak Supervision with 100
Labels [23.849748213613452]
私たちは、挑戦的なWS設定において、自動化されたWS技術を評価するためのフレームワークであるAutoWS-Bench-101を紹介します。
実践者がAutoWSメソッドを使ってラベルを追加するべきか、もっと単純なベースラインを使うべきかを問う。
我々はAutoWS手法の徹底的なアブレーション研究を結論付けている。
論文 参考訳(メタデータ) (2022-08-30T16:09:42Z) - Low Resource Pipeline for Spoken Language Understanding via Weak
Supervision [5.9901156966011975]
Weak Supervised Learning (WSL)では、セマンティックルールとタスク固有の事前学習モデルから得られたノイズの多いラベルに基づいてモデルを訓練する。
タスク非依存のプロンプトは一般化可能であり,様々な音声言語理解(SLU)タスクのノイズラベルを得るのに利用できることを示す。
そこで我々は,SLUタスクの信頼ラベルを生成するプロンプトベースの手法を,ラベル付きデータがない場合に,弱教師付きモデル(WSM)を訓練するための普遍的な弱い情報源として利用することができることを示した。
論文 参考訳(メタデータ) (2022-06-21T17:36:31Z) - WRENCH: A Comprehensive Benchmark for Weak Supervision [66.82046201714766]
ベンチマークは、分類とシーケンスタグ付けのための22の異なる実世界のデータセットで構成されている。
ベンチマークプラットフォームとしての有効性を示すために、100以上のメソッドの変種に対して広範な比較を行うためにベンチマークを使用します。
論文 参考訳(メタデータ) (2021-09-23T13:47:16Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。