論文の概要: DynaSent: A Dynamic Benchmark for Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2012.15349v1
- Date: Wed, 30 Dec 2020 22:38:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 07:52:42.331944
- Title: DynaSent: A Dynamic Benchmark for Sentiment Analysis
- Title(参考訳): DynaSent: 知覚分析のための動的ベンチマーク
- Authors: Christopher Potts, Zhengxuan Wu, Atticus Geiger, Douwe Kiela
- Abstract要約: dynasentは第3次感情分析(ポジティブ/ネガティブ/ニュートラル)のための新しい英語ベンチマークタスクである。
DynaSentは自然発生の文と、オープンソースのDynabench Platformを使って作成された文を組み合わせる。
合計121,634件の判決があり、それぞれ5人の群衆によって検証されている。
- 参考スコア(独自算出の注目度): 31.724648265584445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce DynaSent ('Dynamic Sentiment'), a new English-language benchmark
task for ternary (positive/negative/neutral) sentiment analysis. DynaSent
combines naturally occurring sentences with sentences created using the
open-source Dynabench Platform, which facilities human-and-model-in-the-loop
dataset creation. DynaSent has a total of 121,634 sentences, each validated by
five crowdworkers, and its development and test splits are designed to produce
chance performance for even the best models we have been able to develop; when
future models solve this task, we will use them to create DynaSent version 2,
continuing the dynamic evolution of this benchmark. Here, we report on the
dataset creation effort, focusing on the steps we took to increase quality and
reduce artifacts. We also present evidence that DynaSent's Neutral category is
more coherent than the comparable category in other benchmarks, and we motivate
training models from scratch for each round over successive fine-tuning.
- Abstract(参考訳): dynasent ('dynamic sentiment') は,三者間感情分析(正・負・中性)のための新しい英語ベンチマークタスクである。
dynasentは自然に発生する文とオープンソースのdynabenchプラットフォームを使って作成された文を組み合わせる。
DynaSentには合計121,634の文があり、それぞれが5人のクラウドワーカーによって検証されており、その開発とテストの分割は、私たちが開発した最高のモデルであっても、チャンスパフォーマンスを生み出すように設計されている。
ここでは、データセットの作成作業について報告し、品質の向上とアーティファクトの削減に要したステップに注目します。
dynasentの中性カテゴリが他のベンチマークの同等のカテゴリよりも一貫性があるという証拠も提示し、連続的な微調整よりも各ラウンドのトレーニングモデルをスクラッチからモチベーションづける。
関連論文リスト
- Evaluation of Text-to-Video Generation Models: A Dynamics Perspective [94.2662603491163]
既存の評価プロトコルは主に時間的一貫性とコンテンツの連続性に焦点を当てている。
本稿では,T2Vモデルを評価するための動的次元に着目した効果的な評価プロトコルDEVILを提案する。
論文 参考訳(メタデータ) (2024-07-01T08:51:22Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - A Theory of Dynamic Benchmarks [24.170405353348592]
動的ベンチマークの利点と実用的限界について検討する。
これらの結果は、経験的作業における観察されたボトルネックに関する理論的基礎と因果的説明を提供する。
論文 参考訳(メタデータ) (2022-10-06T18:56:46Z) - Time Will Change Things: An Empirical Study on Dynamic Language
Understanding in Social Media Classification [5.075802830306718]
我々は、実験的にソーシャルメディアのNLUを動的に研究し、モデルが過去のデータに基づいてトレーニングされ、将来のテストが行われる。
自動エンコーディングと擬似ラベルが協調して、動的性の最良の堅牢性を示すことを示す。
論文 参考訳(メタデータ) (2022-10-06T12:18:28Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Dyna-T: Dyna-Q and Upper Confidence Bounds Applied to Trees [0.9137554315375919]
本稿ではDyna-Tという新しいアルゴリズムについて予備検討する。
強化学習(RL)では、計画エージェントは環境をモデルとして表現する。
より良いモデルを学ぶために、あるいは価値関数とポリシーを直接改善するために、経験を使うことができる。
論文 参考訳(メタデータ) (2022-01-12T15:06:30Z) - Dynabench: Rethinking Benchmarking in NLP [82.26699038776812]
動的データセットの作成とモデルベンチマークのためのオープンソースプラットフォームであるdynabenchを紹介する。
DynabenchはWebブラウザで動作し、ループ内の人間とモデルデータセットの作成をサポートする。
私たちは、これらの概念を図示し、プラットフォームの約束を強調する4つの初期のNLPタスクを報告します。
論文 参考訳(メタデータ) (2021-04-07T17:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。