論文の概要: WSC+: Enhancing The Winograd Schema Challenge Using Tree-of-Experts
- arxiv url: http://arxiv.org/abs/2401.17703v1
- Date: Wed, 31 Jan 2024 09:49:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 15:01:19.323364
- Title: WSC+: Enhancing The Winograd Schema Challenge Using Tree-of-Experts
- Title(参考訳): WSC+:Tree-of-Expertsを使ったWinogradスキーマチャレンジの強化
- Authors: Pardis Sadat Zahraei, Ali Emami
- Abstract要約: Winograd Challenge (WSC) は、マシン理解を評価するための重要なベンチマークである。
本稿では,WSC インスタンスの生成を促進する新しいプロンプト手法である Tree-of-Experts (ToE) を提案する。
私たちは、新しい'曖昧'と'攻撃的'のカテゴリを取り入れてWSCフレームワークを拡張し、モデルの過度な自信とバイアスについて深い洞察を与えます。
- 参考スコア(独自算出の注目度): 7.1665569134481775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Winograd Schema Challenge (WSC) serves as a prominent benchmark for
evaluating machine understanding. While Large Language Models (LLMs) excel at
answering WSC questions, their ability to generate such questions remains less
explored. In this work, we propose Tree-of-Experts (ToE), a novel prompting
method which enhances the generation of WSC instances (50% valid cases vs. 10%
in recent methods). Using this approach, we introduce WSC+, a novel dataset
comprising 3,026 LLM-generated sentences. Notably, we extend the WSC framework
by incorporating new 'ambiguous' and 'offensive' categories, providing a deeper
insight into model overconfidence and bias. Our analysis reveals nuances in
generation-evaluation consistency, suggesting that LLMs may not always
outperform in evaluating their own generated questions when compared to those
crafted by other models. On WSC+, GPT-4, the top-performing LLM, achieves an
accuracy of 68.7%, significantly below the human benchmark of 95.1%.
- Abstract(参考訳): Winograd Schema Challenge (WSC)は、マシン理解を評価するための重要なベンチマークである。
LLM(Large Language Models)はWSCの質問に答えるのに優れていますが、そのような質問を生成する能力はいまだ解明されていません。
本稿では,WSC インスタンスの生成を促進する新しいプロンプト手法である Tree-of-Experts (ToE) を提案する。
このアプローチを用いて、3,026 llm 生成文からなる新しいデータセット wsc+ を導入する。
特に、新しい'曖昧'と'不快'のカテゴリを取り入れてWSCフレームワークを拡張し、モデルの過信と偏見について深い洞察を提供する。
解析の結果,LLMは,他のモデルと比較した場合よりも,生成した質問に対して常に優れるとは限らないことが示唆された。
WSC+では、最高性能のLCMであるGPT-4が68.7%の精度を達成し、人間ベンチマークの95.1%を大きく下回っている。
関連論文リスト
- HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly [34.205934899868346]
HELMETは7つの多様なアプリケーション中心のカテゴリを包含する総合ベンチマークである。
NIAHのような合成タスクは、下流のパフォーマンスの予測に適していないことが分かりました。
ほとんどのLCLMは完全なNIAHスコアを達成しているが、タスクがフルコンテキスト推論を必要とする場合、オープンソースモデルはクローズドなスコアよりも大幅に遅れている。
論文 参考訳(メタデータ) (2024-10-03T17:20:11Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Language Models can Evaluate Themselves via Probability Discrepancy [38.54454263880133]
様々な大規模言語モデル(LLM)の有効性を評価するための自己評価手法ProbDiffを提案する。
テスト中のLSMを、初期応答と修正バージョンの間の確率差を計算するために独自に利用する。
以上の結果から, ProbDiff は GPT-4 に基づく評価結果と同等の結果を得た。
論文 参考訳(メタデータ) (2024-05-17T03:50:28Z) - TreeEval: Benchmark-Free Evaluation of Large Language Models through
Tree Planning [18.645806804670265]
TreeEvalは、大規模言語モデル(LLM)のベンチマークフリー評価手法である。
これにより、高性能なLLMが再現不可能な評価セッションをホストし、本質的にデータ漏洩を回避することができる。
パラメータサイズの異なるモデルに対して,7ドルB,13ドルB,33ドルBを含む6ドルモデルを評価し,約45ドルの質問でAlpacaEval2.0との相関係数を最大化する。
論文 参考訳(メタデータ) (2024-02-20T16:38:33Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Zero-Shot Cross-Lingual Summarization via Large Language Models [108.30673793281987]
言語間要約(CLS)は、異なる対象言語で要約を生成する。
近年のLarge Language Models (LLMs) の出現は、計算言語学コミュニティから広く注目を集めている。
本稿では,異なるパラダイムからゼロショットCLSを実行するために,LSMを誘導するために様々なプロンプトを経験的に使用した。
論文 参考訳(メタデータ) (2023-02-28T01:27:37Z) - An Analysis of Dataset Overlap on Winograd-Style Tasks [40.27778524078]
本稿では,WSC型タスクにおける学習コーパスとテストインスタンスの重複度の違いの影響を解析する。
KnowRef-60Kは、WSCスタイルの常識推論において、これまでで最大のコーパスである。
論文 参考訳(メタデータ) (2020-11-09T21:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。