論文の概要: Real-Time Visual Feedback to Guide Benchmark Creation: A
Human-and-Metric-in-the-Loop Workflow
- arxiv url: http://arxiv.org/abs/2302.04434v1
- Date: Thu, 9 Feb 2023 04:43:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 16:58:54.965972
- Title: Real-Time Visual Feedback to Guide Benchmark Creation: A
Human-and-Metric-in-the-Loop Workflow
- Title(参考訳): ベンチマーク作成をガイドするリアルタイムビジュアルフィードバック:ヒューマン・アンド・メトリック・イン・ザ・ループワークフロー
- Authors: Anjana Arunkumar, Swaroop Mishra, Bhavdeep Sachdeva, Chitta Baral,
Chris Bryan
- Abstract要約: NLPのための新しいベンチマーク作成パラダイムであるVAIDAを提案する。
VAIDAは、ベンチマークの慣用性に対処する未調査の顔である、クラウドワーカーを導くことに焦点を当てている。
VAIDAは, クラウドワーカーやアナリストの努力, フラストレーション, 精神的, 時間的要求を減少させる。
- 参考スコア(独自算出の注目度): 22.540665278228975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has shown that language models exploit `artifacts' in
benchmarks to solve tasks, rather than truly learning them, leading to inflated
model performance. In pursuit of creating better benchmarks, we propose VAIDA,
a novel benchmark creation paradigm for NLP, that focuses on guiding
crowdworkers, an under-explored facet of addressing benchmark idiosyncrasies.
VAIDA facilitates sample correction by providing realtime visual feedback and
recommendations to improve sample quality. Our approach is domain, model, task,
and metric agnostic, and constitutes a paradigm shift for robust, validated,
and dynamic benchmark creation via human-and-metric-in-the-loop workflows. We
evaluate via expert review and a user study with NASA TLX. We find that VAIDA
decreases effort, frustration, mental, and temporal demands of crowdworkers and
analysts, simultaneously increasing the performance of both user groups with a
45.8% decrease in the level of artifacts in created samples. As a by product of
our user study, we observe that created samples are adversarial across models,
leading to decreases of 31.3% (BERT), 22.5% (RoBERTa), 14.98% (GPT-3 fewshot)
in performance.
- Abstract(参考訳): 近年の研究では、言語モデルが実際に学習するのではなく、ベンチマークで'成果物'を利用してタスクを解決することが示されている。
優れたベンチマークの作成を追求するため,我々は,nlpのための新しいベンチマーク作成パラダイムであるvaidaを提案する。
VAIDAは、サンプル品質を改善するために、リアルタイムの視覚フィードバックとレコメンデーションを提供することで、サンプル修正を容易にする。
我々のアプローチは、ドメイン、モデル、タスク、メトリック非依存であり、ヒューマン・アンド・メトリック・イン・ザ・ループワークフローによる堅牢で、検証され、動的ベンチマーク作成のためのパラダイムシフトを構成する。
専門家によるレビューとNASA TLXによるユーザスタディによる評価を行った。
VAIDAは, クラウドワーカーやアナリストの努力, フラストレーション, 精神的, 時間的要求を減らし, 同時に両ユーザグループのパフォーマンスを45.8%低下させる。
ユーザ調査の結果から,生成したサンプルはモデル間で逆行性であり,31.3% (bert),22.5% (roberta),14.98% (gpt-3 fewshot) のパフォーマンスが低下することがわかった。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - It's all about PR -- Smart Benchmarking AI Accelerators using Performance Representatives [40.197673152937256]
統計性能モデルのトレーニングは、しばしば大量のデータを必要とするため、かなりの時間的投資となり、ハードウェアの可用性が制限された場合に困難になる。
本稿では,精度を保ちながらトレーニングサンプル数を著しく削減する性能モデリング手法を提案する。
その結果,単層推定では0.02%,トレーニングサンプル10000点未満では0.68%という平均絶対誤差(MAPE)が得られた。
論文 参考訳(メタデータ) (2024-06-12T15:34:28Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Re-ReST: Reflection-Reinforced Self-Training for Language Agents [101.22559705696885]
言語エージェントにおける自己学習は、エージェント自体から監督を生成することができる。
リフレクション強化自己学習(Reflection-Reinforced Self-Training, Re-ReST)は, テキストレフレクタを用いて低品質な試料を精製する。
論文 参考訳(メタデータ) (2024-06-03T16:21:38Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Feedback-guided Data Synthesis for Imbalanced Classification [10.836265321046561]
有用な合成サンプルを用いて静的データセットを拡張するためのフレームワークを提案する。
サンプルはタスクの実際のデータのサポートに近づき、十分に多様であることに気付きました。
ImageNet-LTでは、表現不足のクラスでは4%以上改善され、最先端の結果が得られます。
論文 参考訳(メタデータ) (2023-09-29T21:47:57Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。