論文の概要: Comparing Plausibility Estimates in Base and Instruction-Tuned Large Language Models
- arxiv url: http://arxiv.org/abs/2403.14859v1
- Date: Thu, 21 Mar 2024 22:08:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 18:57:02.229377
- Title: Comparing Plausibility Estimates in Base and Instruction-Tuned Large Language Models
- Title(参考訳): ベースモデルと命令型大規模言語モデルにおける可塑性推定値の比較
- Authors: Carina Kauf, Emmanuele Chersoni, Alessandro Lenci, Evelina Fedorenko, Anna A. Ivanova,
- Abstract要約: 本研究では,英語文の可読性タスクにおいて,暗黙的プロンプトと暗黙的推定を用いて,ベースおよび命令調整型LLMの性能を比較した。
実験1では、モデルアーキテクチャと可視性データセットを通して、ログ可能性(textitLL$)スコアが文の可視性を示す最も信頼性の高い指標であることが示されている。
実験2では、モデル間の$textitLL$スコアが、期待される方法でコンテキストによって変調されることを示し、コンテキストに敏感な3つのメトリクスで高いパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 50.15455336684986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-tuned LLMs can respond to explicit queries formulated as prompts, which greatly facilitates interaction with human users. However, prompt-based approaches might not always be able to tap into the wealth of implicit knowledge acquired by LLMs during pre-training. This paper presents a comprehensive study of ways to evaluate semantic plausibility in LLMs. We compare base and instruction-tuned LLM performance on an English sentence plausibility task via (a) explicit prompting and (b) implicit estimation via direct readout of the probabilities models assign to strings. Experiment 1 shows that, across model architectures and plausibility datasets, (i) log likelihood ($\textit{LL}$) scores are the most reliable indicator of sentence plausibility, with zero-shot prompting yielding inconsistent and typically poor results; (ii) $\textit{LL}$-based performance is still inferior to human performance; (iii) instruction-tuned models have worse $\textit{LL}$-based performance than base models. In Experiment 2, we show that $\textit{LL}$ scores across models are modulated by context in the expected way, showing high performance on three metrics of context-sensitive plausibility and providing a direct match to explicit human plausibility judgments. Overall, $\textit{LL}$ estimates remain a more reliable measure of plausibility in LLMs than direct prompting.
- Abstract(参考訳): インストラクションチューニングされたLLMはプロンプトとして定式化された明示的なクエリに応答できるため、人間のユーザとのインタラクションが大幅に容易になる。
しかし、プロンプトベースのアプローチは、事前学習中にLLMが獲得した暗黙の知識の富を常に活用できるとは限らない。
本稿では,LLMにおける意味的妥当性を評価するための総合的研究について述べる。
英語文の可読性タスクにおけるベースと命令調整型LLMの性能の比較を行う。
a) 明示的な促しと指示
(b)確率モデルの直接読み出しによる暗黙的な推定は文字列に割り当てる。
実験1は、モデルアーキテクチャと可視性データセットをまたいだものである。
i) log chance$\textit{LL}$) scores is the most reliable indicator of sentence plausibility, with zero-shot prompting yield inconsistent and typical poor results。
(ii) $\textit{LL}$-basedパフォーマンスは、人間のパフォーマンスにはまだ劣っている。
(iii)命令チューニングモデルでは、ベースモデルよりも$\textit{LL}$ベースのパフォーマンスが悪くなります。
実験2では、モデル間の$\textit{LL}$スコアが、期待通りにコンテキストによって変調されることを示し、文脈に敏感な3つの指標に対して高い性能を示し、明示的な人間の可視性判断に直接的な一致を提供する。
全体として、$\textit{LL}$ 推定は直接的プロンプトよりも LLM の可算性の信頼性の高い尺度である。
関連論文リスト
- What Are the Odds? Language Models Are Capable of Probabilistic Reasoning [23.487484744911995]
本稿では,言語モデル(LM)の確率論的推論能力を,理想化および実世界の統計分布を用いて評価することに集中する。
本研究では,パーセンタイルの推定,サンプルの描画,確率の計算という3つのタスクにおいて,最先端のLMの体系的評価を行う。
論文 参考訳(メタデータ) (2024-06-18T17:51:24Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - QA-NatVer: Question Answering for Natural Logic-based Fact Verification [11.002475880349452]
我々は自然論理演算子を予測するために質問応答を用いることを提案する。
FEVERのいくつかの設定では、我々のアプローチは最高のベースラインを4.3ドルの精度で上回っている。
人間の評価から,本手法は,従来の自然論理に基づくシステムよりも,誤動作の少ない自然論理演算子でより妥当であることが示唆された。
論文 参考訳(メタデータ) (2023-10-22T06:27:31Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Evaluating statistical language models as pragmatic reasoners [39.72348730045737]
我々は,語学的な発話の意味を推測するために,大規模言語モデルの能力を評価する。
LLMは、複数の複雑な実用的発話の解釈に対して、文脈的、人間的な分布を導出することができる。
結果は,統計的言語モデルの推論能力と,実践的・意味論的解析への応用について報告する。
論文 参考訳(メタデータ) (2023-05-01T18:22:10Z) - MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text
Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。
WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2022-12-16T17:36:23Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。