Fugu-MT 論文翻訳(概要): Language models align with human judgments on key grammatical constructions

論文の概要: Language models align with human judgments on key grammatical constructions

arxiv url: http://arxiv.org/abs/2402.01676v2
Date: Fri, 30 Aug 2024 14:43:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-02 20:21:37.017199
Title: Language models align with human judgments on key grammatical constructions
Title（参考訳）: 言語モデルは重要な文法的構成に関する人間の判断と一致している
Authors: Jennifer Hu, Kyle Mahowald, Gary Lupyan, Anna Ivanova, Roger Levy,
Abstract要約: 確立したプラクティスを用いて,大規模言語モデル(LLM)のパフォーマンスを再評価する。モデル全体の精度は高いが、人間の言語学的判断のきめ細かい変化も捉えることができる。
参考スコア（独自算出の注目度）: 24.187439110055404
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Do large language models (LLMs) make human-like linguistic generalizations? Dentella et al. (2023) ("DGL") prompt several LLMs ("Is the following sentence grammatically correct in English?") to elicit grammaticality judgments of 80 English sentences, concluding that LLMs demonstrate a "yes-response bias" and a "failure to distinguish grammatical from ungrammatical sentences". We re-evaluate LLM performance using well-established practices and find that DGL's data in fact provide evidence for just how well LLMs capture human behaviors. Models not only achieve high accuracy overall, but also capture fine-grained variation in human linguistic judgments.
Abstract（参考訳）: 大規模言語モデル(LLM)は、人間のような言語的一般化をもたらすか? Dentella et al (2023) ("DGL") は、いくつかの LLM に対し、LLM が "yes-response bias" と "failure to distinguish grammatical from ungrammatical sentences" を示して、80の英文の文法的判断を引き出すよう促した("Is the following sentence grammatically correct in English?")。我々は、十分に確立されたプラクティスを用いてLLMのパフォーマンスを再評価し、実際にDGLのデータが、LLMが人間の行動をどのように捉えているかを示す証拠となることを発見した。モデルは全体として高い精度を達成するだけでなく、人間の言語学的判断のきめ細かい変化も捉えている。

関連論文リスト

Explain-then-Process: Using Grammar Prompting to Enhance Grammatical Acceptability Judgments [2.3749120526936465]
大規模言語モデル(LLM)は文法的な規則を説明することができるが、文の受理性を判断する際にはそれらの規則を適用するのに失敗することが多い。本稿では「文法プロンプト(grammar prompting)」について説明する。 LLMのメタ言語的説明をターゲットモデルにフィードバックすることで、ルールの理解とそれの使用の間のギャップを埋める。
論文参考訳（メタデータ） (2025-06-02T22:42:33Z)
A suite of LMs comprehend puzzle statements as well as humans [13.386647125288516]
本研究では,ヒトの反応を2つの条件で比較した事前登録研究を報告した。リリーディングが制限されると、人間の精度は大幅に低下し、Falcon-180B-ChatやGPT-4よりも低下した。結果は、モデル固有の欠陥よりも、実用的感受性の共有を示唆している。
論文参考訳（メタデータ） (2025-05-13T22:18:51Z)
Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。 LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文参考訳（メタデータ） (2025-03-06T05:15:34Z)
Unnatural Languages Are Not Bugs but Features for LLMs [92.8332103170009]
大規模言語モデル(LLM)は、ジェイルブレイクプロンプトなどの非可読テキストシーケンスを処理するために観察されている。我々はこの認識に挑戦する体系的な調査を行い、非自然言語にはモデルで使用可能な潜在的特徴が含まれていることを示した。
論文参考訳（メタデータ） (2025-03-02T12:10:17Z)
Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究 LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文参考訳（メタデータ） (2025-02-17T18:59:02Z)
LLM+AL: Bridging Large Language Models and Action Languages for Complex Reasoning about Actions [7.575628120822444]
LLM+ALは,LLMの自然言語理解能力を,行動言語の記号的推論強度で橋渡しする手法である。 LLM+AL"はChatGPT-4, Claude 3 Opus, Gemini Ultra 1.0, o1-previewなど,最先端のLLMと比較する。以上の結果から,LLM+ALは比較的最小限の修正しか行わないが,常に正しい解が得られることが示唆された。
論文参考訳（メタデータ） (2025-01-01T13:20:01Z)
Can LLMs Help Create Grammar?: Automating Grammar Creation for Endangered Languages with In-Context Learning [0.0]
本稿では,Large Language Models (LLMs) が低リソース言語に対して限られたデータ量で文法情報を生成するのにどのように役立つかを検討する。提案手法では,既存の言語データを整理し,形式的XLE文法を効率的に生成できるようにする。本研究は,LLMが言語文書作成の取り組みを強化し,言語データの生成に費用対効果のあるソリューションを提供し,絶滅危惧言語の保存に寄与する可能性を明らかにする。
論文参考訳（メタデータ） (2024-12-14T20:43:12Z)
Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models [52.00446751692225]
textbfDictionary textbfInsertion textbfPrompting (textbfDIP) という,新規かつシンプルで効果的な方法を提案する。非英語のプロンプトを提供する際、DIPは単語辞書を調べ、単語の英語のプロンプトをLLMのプロンプトに挿入する。そして、英語へのより良い翻訳とより良い英語モデル思考のステップを可能にし、明らかにより良い結果をもたらす。
論文参考訳（メタデータ） (2024-11-02T05:10:50Z)
Do LLMs write like humans? Variation in grammatical and rhetorical styles [0.7852714805965528]
大規模言語モデル(LLM)の修辞形式について検討する。ダグラス・ビーバーの語彙的・文法的・修辞的特徴セットを用いて, LLMと人間との系統的差異を同定した。このことは、高度な能力にもかかわらず、LLMは人間のスタイルに合うのに苦労していることを示している。
論文参考訳（メタデータ） (2024-10-21T15:35:44Z)
One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [55.35278531907263]
本稿では,大言語モデルの公平性と頑健性に関する最初の研究を標準的推論タスクにおける方言に提示する。我々は、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えるために、AAVEスピーカーを採用。標準英語と比較して、これらの広く使われているモデルのほとんどは、AAVEのクエリに対して重大な脆さと不公平さを示している。
論文参考訳（メタデータ） (2024-10-14T18:44:23Z)
Generating bilingual example sentences with large language models as lexicography assistants [2.6550899846546527]
本稿では,資源レベルの異なる言語におけるバイリンガル辞書の例文の生成と評価におけるLLMの性能について検討する。 GDEX(Good Dictionary Example)基準に対するLCM生成例の品質評価を行った。
論文参考訳（メタデータ） (2024-10-04T06:45:48Z)
LLMs' Understanding of Natural Language Revealed [0.0]
大規模言語モデル(LLM)は、大規模言語におけるボトムアップ、データ駆動のリバースエンジニアリングにおける大規模な実験の結果である。私たちはLLMの言語理解能力、彼らが想定する砦をテストすることに重点を置きます。
論文参考訳（メタデータ） (2024-07-29T01:21:11Z)
Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。 Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文参考訳（メタデータ） (2024-06-28T17:03:51Z)
Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文参考訳（メタデータ） (2023-12-13T00:52:15Z)
AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。数学的推論とコモンセンス推論の実験を行う。
論文参考訳（メタデータ） (2023-11-22T17:24:21Z)
This is not a Dataset: A Large Negation Benchmark to Challenge Large Language Models [4.017326849033009]
我々は,否定を理解する大規模言語モデルの最適部分性能の理由を明らかにする。我々は,コモンセンス知識に関する40万前後の記述文を半自動生成する大規模データセットを提案する。我々は,その一般化と推論能力を把握するために,ゼロショットアプローチで利用可能な最大オープンLCMを用いてデータセットを構築した。
論文参考訳（メタデータ） (2023-10-24T15:38:21Z)
Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。 LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文参考訳（メタデータ） (2023-01-31T18:46:19Z)
The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。 2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文参考訳（メタデータ） (2022-10-26T19:04:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。