論文の概要: How to Make the Most of LLMs' Grammatical Knowledge for Acceptability Judgments
- arxiv url: http://arxiv.org/abs/2408.09639v2
- Date: Fri, 07 Feb 2025 07:02:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:54:35.561738
- Title: How to Make the Most of LLMs' Grammatical Knowledge for Acceptability Judgments
- Title(参考訳): LLMの文法的知識を活用したアクセシビリティ判断手法
- Authors: Yusuke Ide, Yuto Nishida, Justin Vasselli, Miyu Oba, Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe,
- Abstract要約: 言語モデル(LM)の文法的知識は、言語的最小対のベンチマークを用いてしばしば測定される。
最近の大規模言語モデル(LLM)は、プロンプトによってタスクを実行するように訓練されているため、それらが割り当てる生の確率は文法的知識を完全に反映していないかもしれない。
本研究は, プロンプトとテンプレートを用いて, LLMからより正確な判断を導出する試みである。
- 参考スコア(独自算出の注目度): 22.76776244036282
- License:
- Abstract: The grammatical knowledge of language models (LMs) is often measured using a benchmark of linguistic minimal pairs, where the LMs are presented with a pair of acceptable and unacceptable sentences and required to judge which is more acceptable. Conventional approaches directly compare sentence probabilities assigned by LMs, but recent large language models (LLMs) are trained to perform tasks via prompting, and thus, the raw probabilities they assign may not fully reflect their grammatical knowledge. In this study, we attempt to derive more accurate acceptability judgments from LLMs using prompts and templates. Through extensive experiments in English and Chinese, we compare nine judgment methods and find two of them, a probability readout method -- in-template LP and a prompt-based method -- Yes/No probability computing, achieve higher accuracy than the conventional ones. Our analysis reveals that these methods excel in different linguistic phenomena, suggesting they access different aspects of LLMs' knowledge. We also find that ensembling the two methods outperforms single methods. Consequently, we recommend these techniques, either individually or ensembled, as more effective alternatives to conventional approaches for assessing grammatical knowledge in LLMs.
- Abstract(参考訳): 言語モデル(LM)の文法的知識は、言語的最小対のベンチマークを用いてしばしば測定される。
従来の手法では、LMが割り当てられた文の確率を直接比較するが、近年の大規模言語モデル(LLM)はプロンプトによってタスクを実行するよう訓練されているため、それらが割り当てる生の確率は文法的知識を完全に反映していない。
本研究では,プロンプトとテンプレートを用いて,LCMからより正確な受容可能性判定を導出する。
英語と中国語の広範な実験を通して、9つの判定法を比較し、そのうちの2つ、確率読み出し法(in-template LP)とプロンプトベース法(yes/No probability computing)を比較し、従来のものよりも高い精度を達成する。
分析の結果,これらの手法は言語現象に優れており,LLMの知識の異なる側面にアクセスすることが示唆された。
また、2つのメソッドのアンサンブルが1つのメソッドより優れていることもわかりました。
その結果,従来のLLMの文法的知識評価手法の代替として,個人的,あるいはアンサンブル的に,これらの手法を推奨した。
関連論文リスト
- The Alternative Annotator Test for LLM-as-a-Judge: How to Statistically Justify Replacing Human Annotators with LLMs [21.97227334180969]
LLM-as-a-judge"パラダイムでは、人間が伝統的に行ってきたタスクにおいて、アノテータや評価役としてLarge Language Modelsを採用している。
研究結果や洞察を形成する上での役割にもかかわらず、LLMがヒトのアノテーターを置き換えることができるかどうかを判断するための標準的あるいは厳格な手順は存在しない。
LLMアノテーションの使用を正当化するためには、アノテーション付き例の控えめなサブセットだけを必要とする新しい統計手順である代替アノテーションテスト(alt-test)を提案する。
論文 参考訳(メタデータ) (2025-01-19T07:09:11Z) - Learning-From-Mistakes Prompting for Indigenous Language Translation [3.7790255156708397]
本稿では,低リソースの母国語翻訳を改善する手法を提案する。
我々のアプローチは、限られた数の並列翻訳例からなるデータストアの使用に基礎を置いています。
我々は、LLMをユニバーサルトランスレータとして使用するような設定において、LLMと文脈内学習技術のポテンシャルを利用する。
論文 参考訳(メタデータ) (2024-07-18T09:41:20Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。
本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。
この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文 参考訳(メタデータ) (2024-05-30T03:00:47Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Language Models as an Alternative Evaluator of Word Order Hypotheses: A
Case Study in Japanese [45.80297329300326]
本稿では,ニューラルネットワークモデル(LM)を用いて単語の順序を解析する手法について検討する。
本手法が単語の順序分析に有効かどうかを検討する。
LMは分析ツールとして使うのに十分な単語順の知識を提示する。
論文 参考訳(メタデータ) (2020-05-02T14:32:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。