論文の概要: EvoGrad: A Dynamic Take on the Winograd Schema Challenge with Human
Adversaries
- arxiv url: http://arxiv.org/abs/2402.13372v2
- Date: Thu, 22 Feb 2024 18:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 11:41:01.814015
- Title: EvoGrad: A Dynamic Take on the Winograd Schema Challenge with Human
Adversaries
- Title(参考訳): evograd: 人間の敵によるwinogradスキーマチャレンジのダイナミックな捉え方
- Authors: Jing Han Sun and Ali Emami
- Abstract要約: 私たちはEvoGradというオープンソースのプラットフォームを紹介します。これは、人間-イン-ザ-ループアプローチを利用して、変更したWSCインスタンスに合わせた動的データセットを作成します。
タスクインスタンスを182から3,691に拡張し、さまざまな常識推論データセットの新しいベンチマークを設定しました。
最高性能のLCMであるGPT-3.5でも平均誤差深さ7.2で65.0%の精度が得られる。
- 参考スコア(独自算出の注目度): 10.230538419992882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) excel at the Winograd Schema Challenge
(WSC), a coreference resolution task testing common-sense reasoning through
pronoun disambiguation, they struggle with instances that feature minor
alterations or rewording. To address this, we introduce EvoGrad, an open-source
platform that harnesses a human-in-the-loop approach to create a dynamic
dataset tailored to such altered WSC instances. Leveraging ChatGPT's
capabilities, we expand our task instances from 182 to 3,691, setting a new
benchmark for diverse common-sense reasoning datasets. Additionally, we
introduce the error depth metric, assessing model stability in dynamic tasks.
Our results emphasize the challenge posed by EvoGrad: Even the best performing
LLM, GPT-3.5, achieves an accuracy of 65.0% with an average error depth of 7.2,
a stark contrast to human performance of 92. 8% accuracy without perturbation
errors. This highlights ongoing model limitations and the value of dynamic
datasets in uncovering them.
- Abstract(参考訳): 大きな言語モデル(LLMs)は、代名詞の曖昧さを通した常識推論をテストするコア参照解決タスクであるWinograd Schema Challenge(WSC)で優れているが、小さな変更やリワードを特徴とするインスタンスと競合する。
これに対処するために、我々は、このような変更されたwscインスタンスに合わせた動的データセットを作成するために、human-in-the-loopアプローチを利用するオープンソースのプラットフォームevogradを紹介します。
ChatGPTの機能を活用して、タスクインスタンスを182から3,691に拡張し、さまざまな常識推論データセットの新しいベンチマークを設定します。
さらに,動的タスクにおけるモデルの安定性を評価するために,誤差深さ測定を導入する。
最高性能のLCMであるGPT-3.5でも,平均誤差深さ7.2で65.0%の精度を達成し,人的性能92。
8%の精度を示した。
これは、モデル制限の継続と、それを明らかにする際の動的データセットの価値を強調している。
関連論文リスト
- Mitigating Reward Hacking via Information-Theoretic Reward Modeling [70.26019860948114]
本稿では,報酬モデリングのための汎用的で堅牢なフレームワークであるInfoRMを提案する。
我々は,潜伏空間における過最適化と外れ値の相関を同定し,報酬過最適化を検出するための有望なツールとしてInfoRMを確立した。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with
Self-Correction [7.388002745070808]
本研究では、生成問題をサブプロブレムに分解し、それらのサブプロブレムの解を大規模言語モデルに供給する方法について検討する。
文脈内学習による我々のアプローチは、多くの微調整されたモデルを少なくとも5%上回っている。
論文 参考訳(メタデータ) (2023-04-21T15:02:18Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z) - Contrastive Error Attribution for Finetuned Language Models [35.80256755393739]
ノイズと誤記のデータは、自然言語生成(NLG)タスクにおける幻覚と不誠実なアウトプットの中核的な原因である。
望ましくないアウトプットにつながる低品質のトレーニングインスタンスを特定し、削除するフレームワークを導入します。
本研究では、勾配に基づく影響尺度のような既存の誤差追跡手法は、忠実度誤差を検出するために確実に機能しないことを示す。
論文 参考訳(メタデータ) (2022-12-21T02:28:07Z) - ZooD: Exploiting Model Zoo for Out-of-Distribution Generalization [65.58562481279023]
PTMのランク付けと特徴選択によるアンサンブルのためのパラダイムであるZooDを提案する。
我々は,多様なアウト・オブ・ディストリビューション(OoD)タスクのための35のモデルからなる多様なモデル動物園において,我々のパラダイムを評価する。
論文 参考訳(メタデータ) (2022-10-17T16:31:57Z) - HaT5: Hate Language Identification using Text-to-Text Transfer
Transformer [1.2532400738980594]
比較的多様な2つのデータセットから5つのタスクにまたがる最先端技術(SoTA)アーキテクチャT5の性能について検討する。
性能向上のために,自己回帰モデルを用いてトレーニングデータを増強する。
サンプルの小さなセットを使用することで、データアノテーションが貧弱であることの難しさを明らかにします。
論文 参考訳(メタデータ) (2022-02-11T15:21:27Z) - Discrete Auto-regressive Variational Attention Models for Text Modeling [53.38382932162732]
変分オートエンコーダ(VAE)はテキストモデリングに広く応用されている。
情報不足と後部崩壊という2つの課題に悩まされている。
本稿では,自己回帰変動注意モデル(DAVAM)を提案する。
論文 参考訳(メタデータ) (2021-06-16T06:36:26Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z) - Learning from the Worst: Dynamically Generated Datasets to Improve
Online Hate Detection [26.447680377937978]
オンラインヘイト分類のための世界初の大規模な合成トレーニングデータセットを紹介します。
詳細なラベルに対するアノテーション付きの40,623例のデータセットを提供する。
モデル性能とロバスト性は動的データ収集パラダイムを用いて大幅に改善できることを示す。
論文 参考訳(メタデータ) (2020-12-31T17:36:48Z) - Precise Task Formalization Matters in Winograd Schema Evaluations [28.949399736177526]
ウィノグラードチャレンジのパフォーマンスは、偶然の正確さからスーパーGLUEのリーダーボードの89%まで向上した。
この改善の多くは、タスクの形式化の最近の変化によるものだと仮定する。
論文 参考訳(メタデータ) (2020-10-08T15:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。