論文の概要: EvoGrad: A Dynamic Take on the Winograd Schema Challenge with Human
Adversaries
- arxiv url: http://arxiv.org/abs/2402.13372v2
- Date: Thu, 22 Feb 2024 18:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 11:41:01.814015
- Title: EvoGrad: A Dynamic Take on the Winograd Schema Challenge with Human
Adversaries
- Title(参考訳): evograd: 人間の敵によるwinogradスキーマチャレンジのダイナミックな捉え方
- Authors: Jing Han Sun and Ali Emami
- Abstract要約: 私たちはEvoGradというオープンソースのプラットフォームを紹介します。これは、人間-イン-ザ-ループアプローチを利用して、変更したWSCインスタンスに合わせた動的データセットを作成します。
タスクインスタンスを182から3,691に拡張し、さまざまな常識推論データセットの新しいベンチマークを設定しました。
最高性能のLCMであるGPT-3.5でも平均誤差深さ7.2で65.0%の精度が得られる。
- 参考スコア(独自算出の注目度): 10.230538419992882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) excel at the Winograd Schema Challenge
(WSC), a coreference resolution task testing common-sense reasoning through
pronoun disambiguation, they struggle with instances that feature minor
alterations or rewording. To address this, we introduce EvoGrad, an open-source
platform that harnesses a human-in-the-loop approach to create a dynamic
dataset tailored to such altered WSC instances. Leveraging ChatGPT's
capabilities, we expand our task instances from 182 to 3,691, setting a new
benchmark for diverse common-sense reasoning datasets. Additionally, we
introduce the error depth metric, assessing model stability in dynamic tasks.
Our results emphasize the challenge posed by EvoGrad: Even the best performing
LLM, GPT-3.5, achieves an accuracy of 65.0% with an average error depth of 7.2,
a stark contrast to human performance of 92. 8% accuracy without perturbation
errors. This highlights ongoing model limitations and the value of dynamic
datasets in uncovering them.
- Abstract(参考訳): 大きな言語モデル(LLMs)は、代名詞の曖昧さを通した常識推論をテストするコア参照解決タスクであるWinograd Schema Challenge(WSC)で優れているが、小さな変更やリワードを特徴とするインスタンスと競合する。
これに対処するために、我々は、このような変更されたwscインスタンスに合わせた動的データセットを作成するために、human-in-the-loopアプローチを利用するオープンソースのプラットフォームevogradを紹介します。
ChatGPTの機能を活用して、タスクインスタンスを182から3,691に拡張し、さまざまな常識推論データセットの新しいベンチマークを設定します。
さらに,動的タスクにおけるモデルの安定性を評価するために,誤差深さ測定を導入する。
最高性能のLCMであるGPT-3.5でも,平均誤差深さ7.2で65.0%の精度を達成し,人的性能92。
8%の精度を示した。
これは、モデル制限の継続と、それを明らかにする際の動的データセットの価値を強調している。
関連論文リスト
- STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions [6.19084217044276]
大規模言語モデル(LLM)における明示的バイアスと暗黙的バイアスの緩和は、自然言語処理の分野において重要な焦点となっている。
我々は,2700のユニークな文を含む450の攻撃的進行を含む,攻撃的進行に関する感性テストデータセットを紹介した。
以上の結果から,最も優れたモデルでさえバイアスを不整合に検出し,成功率は19.3%から69.8%であった。
論文 参考訳(メタデータ) (2024-09-20T18:34:38Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Data Interpreter: An LLM Agent For Data Science [43.13678782387546]
LLM(Large Language Model)ベースのエージェントは多くのアプリケーションで有効性を示している。
しかし、長期的な相互接続タスク、動的なデータ調整、ドメインの専門知識の解決を必要とするデータサイエンスのシナリオでの利用は、依然として困難である。
本稿では,LLMをベースとしたエージェントであるData Interpreterについて述べる。
論文 参考訳(メタデータ) (2024-02-28T19:49:55Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z) - Discrete Auto-regressive Variational Attention Models for Text Modeling [53.38382932162732]
変分オートエンコーダ(VAE)はテキストモデリングに広く応用されている。
情報不足と後部崩壊という2つの課題に悩まされている。
本稿では,自己回帰変動注意モデル(DAVAM)を提案する。
論文 参考訳(メタデータ) (2021-06-16T06:36:26Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z) - Learning from the Worst: Dynamically Generated Datasets to Improve
Online Hate Detection [26.447680377937978]
オンラインヘイト分類のための世界初の大規模な合成トレーニングデータセットを紹介します。
詳細なラベルに対するアノテーション付きの40,623例のデータセットを提供する。
モデル性能とロバスト性は動的データ収集パラダイムを用いて大幅に改善できることを示す。
論文 参考訳(メタデータ) (2020-12-31T17:36:48Z) - Precise Task Formalization Matters in Winograd Schema Evaluations [28.949399736177526]
ウィノグラードチャレンジのパフォーマンスは、偶然の正確さからスーパーGLUEのリーダーボードの89%まで向上した。
この改善の多くは、タスクの形式化の最近の変化によるものだと仮定する。
論文 参考訳(メタデータ) (2020-10-08T15:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。