論文の概要: What's in a Measurement? Using GPT-3 on SemEval 2021 Task 8 -- MeasEval
- arxiv url: http://arxiv.org/abs/2106.14720v1
- Date: Mon, 28 Jun 2021 13:48:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 18:23:29.484626
- Title: What's in a Measurement? Using GPT-3 on SemEval 2021 Task 8 -- MeasEval
- Title(参考訳): 測定には何があるの?
GPT-3 on SemEval 2021 Task 8 -- MeasEval
- Authors: Curt Kohler and Ron Daniel Jr
- Abstract要約: 2020年夏、OpenAIはGPT-3自動回帰言語モデルをリリースした。
私たちは特に、GPT-3がSemEval 2021 MeasEvalタスクにもたらすメリットに興味がありました。
私たちは、GPT-3の数発の学習機能を使って、以前の作業よりも優れたパフォーマンスを持つソリューションをより簡単に開発できるかどうかを確かめたかったのです。
- 参考スコア(独自算出の注目度): 0.228438857884398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the summer of 2020 OpenAI released its GPT-3 autoregressive language model
to much fanfare. While the model has shown promise on tasks in several areas,
it has not always been clear when the results were cherry-picked or when they
were the unvarnished output. We were particularly interested in what benefits
GPT-3 could bring to the SemEval 2021 MeasEval task - identifying measurements
and their associated attributes in scientific literature. We had already
experimented with multi-turn questions answering as a solution to this task. We
wanted to see if we could use GPT-3's few-shot learning capabilities to more
easily develop a solution that would have better performance than our prior
work. Unfortunately, we have not been successful in that effort. This paper
discusses the approach we used, challenges we encountered, and results we
observed. Some of the problems we encountered were simply due to the state of
the art. For example, the limits on the size of the prompt and answer limited
the amount of the training signal that could be offered. Others are more
fundamental. We are unaware of generative models that excel in retaining
factual information. Also, the impact of changes in the prompts is
unpredictable, making it hard to reliably improve performance.
- Abstract(参考訳): 2020年夏、OpenAIはGPT-3自動回帰言語モデルをリリースした。
モデルはいくつかの領域でタスクに約束を示してきたが、結果がいつチェリーピックされたのか、いつ無作為なアウトプットだったのかは必ずしも明確ではない。
我々は特に,GPT-3がSemEval 2021 MeasEvalタスクにどのようなメリットをもたらすかに興味を持っていた。
この課題に対する解決策として,すでにマルチターン質問の回答を実験しています。
私たちは、GPT-3の数発の学習機能を使って、以前の作業よりも優れたパフォーマンスを持つソリューションをより簡単に開発できるかどうかを確かめたかったのです。
残念ながら、私たちはその努力に成功していません。
本稿では,使用したアプローチ,遭遇した課題,観察した結果について述べる。
私たちが遭遇した問題のいくつかは、単に芸術の状態によるものでした。
例えば、プロンプトと応答のサイズの制限は、提供可能なトレーニング信号の量を制限する。
その他のものはより基本的です。
我々は事実情報の保持に優れる生成モデルに気づいていない。
また、プロンプトの変更の影響は予測できないため、パフォーマンスを確実に改善することは難しい。
関連論文リスト
- PHUDGE: Phi-3 as Scalable Judge [1.7495213911983414]
我々は,SOTAを達成したPhi3モデルについて,フィードバックテスト,フィードバックOOD,MTヒューマン,優先度テストの4つのタスクについて述べる。
GPT4だけでなく、人間のアノテータにも、絶対的および相対的なグルーピングタスクにおいて、非常に強い相関関係を示す。
我々は、体系的なML実験、思慮深いデータ拡張、問題自体の再現によって、より少ないトレーニングデータでも10倍のモデルに打ち勝つことができることを示した。
論文 参考訳(メタデータ) (2024-05-12T18:22:16Z) - RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large
Language Models [56.51705482912727]
ゼロショット設定で高品質なリストワイドのランク付けを行うことができる初の完全オープンソースLCMである RankVicuna を提示する。
TREC 2019と2020 Deep Learning Tracksの実験結果から,GPT-4のゼロショットリランクに匹敵する効果が得られ,GPT-3.5よりもはるかに小さい7Bパラメータモデルが得られた。
論文 参考訳(メタデータ) (2023-09-26T17:31:57Z) - Negated Complementary Commonsense using Large Language Models [3.42658286826597]
この研究は、コモンセンスのシナリオで否定された補完的な質問に対する答えを見つけることに重点を置いている。
本稿では,否定的な相補的シナリオにおける性能向上のためのモデルに依存しない手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T15:03:48Z) - Reliability Check: An Analysis of GPT-3's Response to Sensitive Topics
and Prompt Wording [0.0]
GPT-3を混乱させるものは何か、モデルが特定のセンシティブなトピックにどう反応するか、そしてモデル応答にどのような影響があるのかを解析する。
GPT-3は明らかな陰謀やステレオタイプと正しく一致しないが、一般的な誤解や論争では誤りを犯す。
モデル応答はプロンプトや設定に不整合であり、GPT-3の信頼性の欠如を強調している。
論文 参考訳(メタデータ) (2023-06-09T19:07:31Z) - How does GPT-2 compute greater-than?: Interpreting mathematical
abilities in a pre-trained language model [52.92472140375308]
我々は、GPT-2小の数学的能力を説明するために、機械的解釈可能性技術を用いている。
我々は, GPT-2 small の最終多層パーセプトロンは, 開始年よりも終末年の確率を増大させることを示した。
以上の結果から,GPT-2は複雑だが汎用的な機構で計算可能であることが示唆された。
論文 参考訳(メタデータ) (2023-04-30T21:44:21Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - "John is 50 years old, can his son be 65?" Evaluating NLP Models'
Understanding of Feasibility [19.47954905054217]
この研究は、アクション(またはその効果)が実現可能かどうかを推論する、単純な常識能力に焦点を当てている。
GPT-3のような最先端モデルでさえ、実現可能性の問題に正しく答えることに苦慮していることを示す。
論文 参考訳(メタデータ) (2022-10-14T02:46:06Z) - Reframing Instructional Prompts to GPTk's Language [72.69833640335519]
本稿では,モデル設計者が言語モデルに対して効果的なプロンプトを作成するためのリフレーミング手法を提案する。
その結果、リフレーミングはサンプルの複雑さを減らしながら、数ショットの学習性能を14%向上させることがわかった。
GPT3では、大規模なデータセットでモデルやプロンプトをチューニングすることは不可能である。
論文 参考訳(メタデータ) (2021-09-16T09:44:43Z) - Dealing with Missing Modalities in the Visual Question Answer-Difference
Prediction Task through Knowledge Distillation [75.1682163844354]
我々は,視覚的質問応答拡散予測タスクから生じる欠落モダリティの問題に対処する。
本稿では,イメージ/質問/回答トリプレットを入力として,ベースラインを上回る「大きな」教師モデルを紹介する。
論文 参考訳(メタデータ) (2021-04-13T06:41:11Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。