論文の概要: Real-Time Visual Feedback to Guide Benchmark Creation: A
Human-and-Metric-in-the-Loop Workflow
- arxiv url: http://arxiv.org/abs/2302.04434v1
- Date: Thu, 9 Feb 2023 04:43:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 16:58:54.965972
- Title: Real-Time Visual Feedback to Guide Benchmark Creation: A
Human-and-Metric-in-the-Loop Workflow
- Title(参考訳): ベンチマーク作成をガイドするリアルタイムビジュアルフィードバック:ヒューマン・アンド・メトリック・イン・ザ・ループワークフロー
- Authors: Anjana Arunkumar, Swaroop Mishra, Bhavdeep Sachdeva, Chitta Baral,
Chris Bryan
- Abstract要約: NLPのための新しいベンチマーク作成パラダイムであるVAIDAを提案する。
VAIDAは、ベンチマークの慣用性に対処する未調査の顔である、クラウドワーカーを導くことに焦点を当てている。
VAIDAは, クラウドワーカーやアナリストの努力, フラストレーション, 精神的, 時間的要求を減少させる。
- 参考スコア(独自算出の注目度): 22.540665278228975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has shown that language models exploit `artifacts' in
benchmarks to solve tasks, rather than truly learning them, leading to inflated
model performance. In pursuit of creating better benchmarks, we propose VAIDA,
a novel benchmark creation paradigm for NLP, that focuses on guiding
crowdworkers, an under-explored facet of addressing benchmark idiosyncrasies.
VAIDA facilitates sample correction by providing realtime visual feedback and
recommendations to improve sample quality. Our approach is domain, model, task,
and metric agnostic, and constitutes a paradigm shift for robust, validated,
and dynamic benchmark creation via human-and-metric-in-the-loop workflows. We
evaluate via expert review and a user study with NASA TLX. We find that VAIDA
decreases effort, frustration, mental, and temporal demands of crowdworkers and
analysts, simultaneously increasing the performance of both user groups with a
45.8% decrease in the level of artifacts in created samples. As a by product of
our user study, we observe that created samples are adversarial across models,
leading to decreases of 31.3% (BERT), 22.5% (RoBERTa), 14.98% (GPT-3 fewshot)
in performance.
- Abstract(参考訳): 近年の研究では、言語モデルが実際に学習するのではなく、ベンチマークで'成果物'を利用してタスクを解決することが示されている。
優れたベンチマークの作成を追求するため,我々は,nlpのための新しいベンチマーク作成パラダイムであるvaidaを提案する。
VAIDAは、サンプル品質を改善するために、リアルタイムの視覚フィードバックとレコメンデーションを提供することで、サンプル修正を容易にする。
我々のアプローチは、ドメイン、モデル、タスク、メトリック非依存であり、ヒューマン・アンド・メトリック・イン・ザ・ループワークフローによる堅牢で、検証され、動的ベンチマーク作成のためのパラダイムシフトを構成する。
専門家によるレビューとNASA TLXによるユーザスタディによる評価を行った。
VAIDAは, クラウドワーカーやアナリストの努力, フラストレーション, 精神的, 時間的要求を減らし, 同時に両ユーザグループのパフォーマンスを45.8%低下させる。
ユーザ調査の結果から,生成したサンプルはモデル間で逆行性であり,31.3% (bert),22.5% (roberta),14.98% (gpt-3 fewshot) のパフォーマンスが低下することがわかった。
関連論文リスト
- Lifelong Benchmarks: Efficient Model Evaluation in an Era of Rapid
Progress [42.61046639944395]
繰り返しテストすることで、アルゴリズムが過剰に露出するベンチマークの慣用性によって、オーバーフィッティングのリスクが増大する。
私たちの研究では、Lifelong Benchmarksと呼ばれる大規模ベンチマークを継続的に展開することで、この課題を緩和しようとしています。
オーバーフィッティングを減らす一方で、寿命の長いベンチマークでは重要な課題が紹介されている。
論文 参考訳(メタデータ) (2024-02-29T18:58:26Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with
Language Models [116.19321613273311]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - QualEval: Qualitative Evaluation for Model Improvement [86.29905469151566]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - Feedback-guided Data Synthesis for Imbalanced Classification [11.625643407385391]
有用な合成サンプルを用いて静的データセットを拡張するためのフレームワークを提案する。
サンプルはタスクの実際のデータのサポートに近づき、十分に多様であることに気付きました。
ImageNet-LTでは、表現不足のクラスでは4%以上改善され、最先端の結果が得られます。
論文 参考訳(メタデータ) (2023-09-29T21:47:57Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - TTAPS: Test-Time Adaption by Aligning Prototypes using Self-Supervision [70.05605071885914]
本研究では,単体テストサンプルに適用可能な自己教師付きトレーニングアルゴリズムSwaVの新たな改良を提案する。
ベンチマークデータセットCIFAR10-Cにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-05-18T05:43:06Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。