Fugu-MT 論文翻訳(概要): EvoGrad: A Dynamic Take on the Winograd Schema Challenge with Human Adversaries

論文の概要: EvoGrad: A Dynamic Take on the Winograd Schema Challenge with Human Adversaries

arxiv url: http://arxiv.org/abs/2402.13372v2
Date: Thu, 22 Feb 2024 18:29:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 11:41:01.814015
Title: EvoGrad: A Dynamic Take on the Winograd Schema Challenge with Human Adversaries
Title（参考訳）: evograd: 人間の敵によるwinogradスキーマチャレンジのダイナミックな捉え方
Authors: Jing Han Sun and Ali Emami
Abstract要約: 私たちはEvoGradというオープンソースのプラットフォームを紹介します。これは、人間-イン-ザ-ループアプローチを利用して、変更したWSCインスタンスに合わせた動的データセットを作成します。タスクインスタンスを182から3,691に拡張し、さまざまな常識推論データセットの新しいベンチマークを設定しました。最高性能のLCMであるGPT-3.5でも平均誤差深さ7.2で65.0%の精度が得られる。
参考スコア（独自算出の注目度）: 10.230538419992882
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While Large Language Models (LLMs) excel at the Winograd Schema Challenge (WSC), a coreference resolution task testing common-sense reasoning through pronoun disambiguation, they struggle with instances that feature minor alterations or rewording. To address this, we introduce EvoGrad, an open-source platform that harnesses a human-in-the-loop approach to create a dynamic dataset tailored to such altered WSC instances. Leveraging ChatGPT's capabilities, we expand our task instances from 182 to 3,691, setting a new benchmark for diverse common-sense reasoning datasets. Additionally, we introduce the error depth metric, assessing model stability in dynamic tasks. Our results emphasize the challenge posed by EvoGrad: Even the best performing LLM, GPT-3.5, achieves an accuracy of 65.0% with an average error depth of 7.2, a stark contrast to human performance of 92. 8% accuracy without perturbation errors. This highlights ongoing model limitations and the value of dynamic datasets in uncovering them.
Abstract（参考訳）: 大きな言語モデル(LLMs)は、代名詞の曖昧さを通した常識推論をテストするコア参照解決タスクであるWinograd Schema Challenge(WSC)で優れているが、小さな変更やリワードを特徴とするインスタンスと競合する。これに対処するために、我々は、このような変更されたwscインスタンスに合わせた動的データセットを作成するために、human-in-the-loopアプローチを利用するオープンソースのプラットフォームevogradを紹介します。 ChatGPTの機能を活用して、タスクインスタンスを182から3,691に拡張し、さまざまな常識推論データセットの新しいベンチマークを設定します。さらに,動的タスクにおけるモデルの安定性を評価するために,誤差深さ測定を導入する。最高性能のLCMであるGPT-3.5でも,平均誤差深さ7.2で65.0%の精度を達成し,人的性能92。 8%の精度を示した。これは、モデル制限の継続と、それを明らかにする際の動的データセットの価値を強調している。

関連論文リスト

RoHOI: Robustness Benchmark for Human-Object Interaction Detection [38.09248570129455]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。 HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文参考訳（メタデータ） (2025-07-12T01:58:04Z)
Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文参考訳（メタデータ） (2025-05-26T16:05:10Z)
Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。 LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文参考訳（メタデータ） (2025-03-05T05:39:29Z)
STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions [6.19084217044276]
大規模言語モデル(LLM)における明示的バイアスと暗黙的バイアスの緩和は、自然言語処理の分野において重要な焦点となっている。我々は,2700のユニークな文を含む450の攻撃的進行を含む,攻撃的進行に関する感性テストデータセットを紹介した。以上の結果から,最も優れたモデルでさえバイアスを不整合に検出し,成功率は19.3%から69.8%であった。
論文参考訳（メタデータ） (2024-09-20T18:34:38Z)
On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。 RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文参考訳（メタデータ） (2024-06-08T13:40:38Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
Data Interpreter: An LLM Agent For Data Science [43.13678782387546]
LLM(Large Language Model)ベースのエージェントは多くのアプリケーションで有効性を示している。しかし、長期的な相互接続タスク、動的なデータ調整、ドメインの専門知識の解決を必要とするデータサイエンスのシナリオでの利用は、依然として困難である。本稿では,LLMをベースとしたエージェントであるData Interpreterについて述べる。
論文参考訳（メタデータ） (2024-02-28T19:49:55Z)
Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文参考訳（メタデータ） (2023-10-02T09:47:40Z)
Exposing and Addressing Cross-Task Inconsistency in Unified Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文参考訳（メタデータ） (2023-03-28T16:57:12Z)
Discrete Auto-regressive Variational Attention Models for Text Modeling [53.38382932162732]
変分オートエンコーダ(VAE)はテキストモデリングに広く応用されている。情報不足と後部崩壊という2つの課題に悩まされている。本稿では,自己回帰変動注意モデル(DAVAM)を提案する。
論文参考訳（メタデータ） (2021-06-16T06:36:26Z)
Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文参考訳（メタデータ） (2021-05-06T14:12:26Z)
Learning from the Worst: Dynamically Generated Datasets to Improve Online Hate Detection [26.447680377937978]
オンラインヘイト分類のための世界初の大規模な合成トレーニングデータセットを紹介します。詳細なラベルに対するアノテーション付きの40,623例のデータセットを提供する。モデル性能とロバスト性は動的データ収集パラダイムを用いて大幅に改善できることを示す。
論文参考訳（メタデータ） (2020-12-31T17:36:48Z)
Precise Task Formalization Matters in Winograd Schema Evaluations [28.949399736177526]
ウィノグラードチャレンジのパフォーマンスは、偶然の正確さからスーパーGLUEのリーダーボードの89%まで向上した。この改善の多くは、タスクの形式化の最近の変化によるものだと仮定する。
論文参考訳（メタデータ） (2020-10-08T15:10:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。