論文の概要: A Discerning Several Thousand Judgments: GPT-3 Rates the Article +
Adjective + Numeral + Noun Construction
- arxiv url: http://arxiv.org/abs/2301.12564v1
- Date: Sun, 29 Jan 2023 22:29:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 16:20:53.582494
- Title: A Discerning Several Thousand Judgments: GPT-3 Rates the Article +
Adjective + Numeral + Noun Construction
- Title(参考訳): 数千の判決を識別する: GPT-3 は,+形容詞+数詞+名詞構成を格付けする
- Authors: Kyle Mahowald
- Abstract要約: 私は、GPT-3に英語+形容詞+数字+名詞構成に関する受理性判断をするよう促します。
アクセプタビリティ判断のCoLAコーパスを用いて,そのプロンプトを検証する。
私はGPT-3の判断を、文のサブセットでクラウドソーシングされた人間の判断と比較する。
- 参考スコア(独自算出の注目度): 1.6860963320038902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge of syntax includes knowledge of rare, idiosyncratic constructions.
LLMs must overcome frequency biases in order to master such constructions. In
this study, I prompt GPT-3 to give acceptability judgments on the
English-language Article + Adjective + Numeral + Noun construction (e.g., "a
lovely five days"). I validate the prompt using the CoLA corpus of
acceptability judgments and then zero in on the AANN construction. I compare
GPT- 3's judgments to crowdsourced human judgments on a subset of sentences.
GPT-3's judgments are broadly similar to human judgments and generally align
with proposed constraints in the literature but, in some cases, GPT-3's
judgments and human judgments diverge from the literature and from each other.
- Abstract(参考訳): 文法の知識には希少で慣用的な構成の知識が含まれる。
LLMはそのような構造を習得するために周波数バイアスを克服しなければならない。
本研究では, gpt-3に対して, 英語記事 + 形容詞 + 数字 + 名詞構成(例: "a lovely five days" など)に対する受容性判断を促す。
受理性判定のCoLAコーパスを用いて,AANN構築においてゼロインのプロンプトを検証した。
私はGPT-3の判断を、文のサブセットでクラウドソーシングされた人間の判断と比較する。
GPT-3の判断は、ヒトの判断と大きく類似しており、一般的に文学における提案された制約と一致するが、いくつかの場合において、GPT-3の判断と人間の判断は、文学と相互に分岐する。
関連論文リスト
- AGB-DE: A Corpus for the Automated Legal Assessment of Clauses in German Consumer Contracts [4.427516854041417]
AGB-DE(AGB-DE)は、ドイツの消費者契約の3,764節のコーパスであり、法律の専門家によって注釈付けされ法的に評価されている。
我々は,SVMベースラインの性能を3つの細調整されたオープン言語モデルと比較し,GPT-3.5の性能を比較した。
誤りの分析は、主な課題の1つは、複雑な節の正しい解釈であることを示している。
論文 参考訳(メタデータ) (2024-06-10T21:27:13Z) - GPT-3.5 for Grammatical Error Correction [0.4757470449749875]
本稿では,複数の言語における文法的誤り訂正(GEC)に対する GPT-3.5 の適用について検討する。
我々は,いくつかの手法を用いて,GPT-3.5により提案される補正を自動評価する。
英語では、GPT-3.5は高いリコールを示し、流動的な修正を生成し、文のセマンティクスを一般的に保存する。
しかし、英語とロシア語の双方に対する人間の評価は、その強い誤り検出能力にもかかわらず、GPT-3.5はいくつかのエラータイプに悩まされていることを明らかにしている。
論文 参考訳(メタデータ) (2024-05-14T09:51:09Z) - Large Language Models for Psycholinguistic Plausibility Pretesting [47.1250032409564]
本稿では,言語モデル (LM) が妥当性判定に有効かどうかを検討する。
その結果, GPT-4の妥当性判定は, 調査対象の構造全体にわたって, 人間の判断と高い相関関係があることが判明した。
そして、この相関関係が、人間の代わりにLMを使うことを暗示するかどうかを検証した。
論文 参考訳(メタデータ) (2024-02-08T07:20:02Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - A Survey on Zero Pronoun Translation [69.09774294082965]
ゼロ代名詞(ZP)はプロドロップ言語では省略されることが多いが、非プロドロップ言語ではリコールされるべきである。
本研究は, 神経革命後のゼロ代名詞翻訳(ZPT)における主要な研究について述べる。
1) ZPTは大規模言語モデルの発展傾向と一致している; 2) データの制限は言語やドメインの学習バイアスを引き起こす; 3) 性能改善は単一のベンチマークで報告されることが多いが、高度な手法はまだ実世界の利用には程遠い。
論文 参考訳(メタデータ) (2023-05-17T13:19:01Z) - Can GPT-3 Perform Statutory Reasoning? [37.66486350122862]
我々は、SARAと呼ばれる確立された法定推論データセット上で、最も有能な GPT-3 モデルである text-davinci-003 の能力を探求する。
GPT-3は単純な合成法則に関する簡単な質問に答えるには不十分である。
論文 参考訳(メタデータ) (2023-02-13T04:56:11Z) - Systematicity in GPT-3's Interpretation of Novel English Noun Compounds [7.039267642892591]
我々は、Levinらの実験データをGPT-3世代と比較し、高い類似性を見出した。
我々は、GPT-3が個々の語彙項目以上のことを推論しているという証拠を見つけることができない。
これらの結果は,大規模言語モデルが潜時的により深い理論を符号化するかどうかを評価する際に,低レベルの分布正則性を制御することの重要性を強調した。
論文 参考訳(メタデータ) (2022-10-18T00:25:24Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - On Reality and the Limits of Language Data: Aligning LLMs with Human
Norms [10.02997544238235]
大規模言語モデル (LLMs) は、実践的な応用のために、膨大な自然言語データの言語関連性を利用する。
我々は,この問題を,新規かつ厳密に制御された推論テスト(ART)を用いて探求し,人間の規範とGPT-3のバージョンを比較した。
我々の研究は、データや弱点から直接学習できる常識関係モデルのカテゴリに注目した。
論文 参考訳(メタデータ) (2022-08-25T10:21:23Z) - Reframing Human-AI Collaboration for Generating Free-Text Explanations [46.29832336779188]
少数の人間が記述した例を用いて,自由テキストの説明を生成する作業について考察する。
クラウドソースによる説明よりも,GPT-3による説明の方が好まれる。
我々は、GPT-3と教師付きフィルタを組み合わせたパイプラインを作成し、二項受理性判定を介し、ループ内人間を組み込む。
論文 参考訳(メタデータ) (2021-12-16T07:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。