Fugu-MT 論文翻訳(概要): Comparing Plausibility Estimates in Base and Instruction-Tuned Large Language Models

論文の概要: Comparing Plausibility Estimates in Base and Instruction-Tuned Large Language Models

arxiv url: http://arxiv.org/abs/2403.14859v1
Date: Thu, 21 Mar 2024 22:08:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-25 18:57:02.229377
Title: Comparing Plausibility Estimates in Base and Instruction-Tuned Large Language Models
Title（参考訳）: ベースモデルと命令型大規模言語モデルにおける可塑性推定値の比較
Authors: Carina Kauf, Emmanuele Chersoni, Alessandro Lenci, Evelina Fedorenko, Anna A. Ivanova,
Abstract要約: 本研究では,英語文の可読性タスクにおいて,暗黙的プロンプトと暗黙的推定を用いて,ベースおよび命令調整型LLMの性能を比較した。実験1では、モデルアーキテクチャと可視性データセットを通して、ログ可能性(textitLL$)スコアが文の可視性を示す最も信頼性の高い指標であることが示されている。実験2では、モデル間の$textitLL$スコアが、期待される方法でコンテキストによって変調されることを示し、コンテキストに敏感な3つのメトリクスで高いパフォーマンスを示す。
参考スコア（独自算出の注目度）: 50.15455336684986
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Instruction-tuned LLMs can respond to explicit queries formulated as prompts, which greatly facilitates interaction with human users. However, prompt-based approaches might not always be able to tap into the wealth of implicit knowledge acquired by LLMs during pre-training. This paper presents a comprehensive study of ways to evaluate semantic plausibility in LLMs. We compare base and instruction-tuned LLM performance on an English sentence plausibility task via (a) explicit prompting and (b) implicit estimation via direct readout of the probabilities models assign to strings. Experiment 1 shows that, across model architectures and plausibility datasets, (i) log likelihood ($\textit{LL}$) scores are the most reliable indicator of sentence plausibility, with zero-shot prompting yielding inconsistent and typically poor results; (ii) $\textit{LL}$-based performance is still inferior to human performance; (iii) instruction-tuned models have worse $\textit{LL}$-based performance than base models. In Experiment 2, we show that $\textit{LL}$ scores across models are modulated by context in the expected way, showing high performance on three metrics of context-sensitive plausibility and providing a direct match to explicit human plausibility judgments. Overall, $\textit{LL}$ estimates remain a more reliable measure of plausibility in LLMs than direct prompting.
Abstract（参考訳）: インストラクションチューニングされたLLMはプロンプトとして定式化された明示的なクエリに応答できるため、人間のユーザとのインタラクションが大幅に容易になる。しかし、プロンプトベースのアプローチは、事前学習中にLLMが獲得した暗黙の知識の富を常に活用できるとは限らない。本稿では,LLMにおける意味的妥当性を評価するための総合的研究について述べる。英語文の可読性タスクにおけるベースと命令調整型LLMの性能の比較を行う。 a) 明示的な促しと指示 (b)確率モデルの直接読み出しによる暗黙的な推定は文字列に割り当てる。実験1は、モデルアーキテクチャと可視性データセットをまたいだものである。 i) log chance$\textit{LL}$) scores is the most reliable indicator of sentence plausibility, with zero-shot prompting yield inconsistent and typical poor results。 (ii) $\textit{LL}$-basedパフォーマンスは、人間のパフォーマンスにはまだ劣っている。 (iii)命令チューニングモデルでは、ベースモデルよりも$\textit{LL}$ベースのパフォーマンスが悪くなります。実験2では、モデル間の$\textit{LL}$スコアが、期待通りにコンテキストによって変調されることを示し、文脈に敏感な3つの指標に対して高い性能を示し、明示的な人間の可視性判断に直接的な一致を提供する。全体として、$\textit{LL}$ 推定は直接的プロンプトよりも LLM の可算性の信頼性の高い尺度である。

関連論文リスト

CAAD: Context-Aware Adaptive Decoding for Truthful Text Generation [31.469511576774252]
大規模言語モデルに対する文脈対応適応型復号法を提案する。当社のアプローチは、TrathfulQAで平均2.8%の改善を実現しています。モデルに依存しない,スケーラブルで,効率的な手法では,1世代パスしか必要としない。
論文参考訳（メタデータ） (2025-08-04T08:28:25Z)
What Are the Odds? Language Models Are Capable of Probabilistic Reasoning [23.487484744911995]
本稿では,言語モデル(LM)の確率論的推論能力を,理想化および実世界の統計分布を用いて評価することに集中する。本研究では,パーセンタイルの推定,サンプルの描画,確率の計算という3つのタスクにおいて,最先端のLMの体系的評価を行う。
論文参考訳（メタデータ） (2024-06-18T17:51:24Z)
LINC: A Neurosymbolic Approach for Logical Reasoning by Combining Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文参考訳（メタデータ） (2023-10-23T17:58:40Z)
QA-NatVer: Question Answering for Natural Logic-based Fact Verification [11.002475880349452]
我々は自然論理演算子を予測するために質問応答を用いることを提案する。 FEVERのいくつかの設定では、我々のアプローチは最高のベースラインを4.3ドルの精度で上回っている。人間の評価から,本手法は,従来の自然論理に基づくシステムよりも,誤動作の少ない自然論理演算子でより妥当であることが示唆された。
論文参考訳（メタデータ） (2023-10-22T06:27:31Z)
Prototype-based Aleatoric Uncertainty Quantification for Cross-modal Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-29T09:41:19Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
Evaluating statistical language models as pragmatic reasoners [39.72348730045737]
我々は,語学的な発話の意味を推測するために,大規模言語モデルの能力を評価する。 LLMは、複数の複雑な実用的発話の解釈に対して、文脈的、人間的な分布を導出することができる。結果は,統計的言語モデルの推論能力と,実践的・意味論的解析への応用について報告する。
論文参考訳（メタデータ） (2023-05-01T18:22:10Z)
MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。 WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文参考訳（メタデータ） (2022-12-16T17:36:23Z)
Logical Satisfiability of Counterfactuals for Faithful Explanations in NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。これは、説明に表される論理述語に基づいて、反実仮説を生成する。そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文参考訳（メタデータ） (2022-05-25T03:40:59Z)
When Stability meets Sufficiency: Informative Explanations that do not Overwhelm [15.897648942908747]
入力の分類を正当化するためには、何が最小限に必要かを強調する特徴に基づく属性法を考える。最小限の充足性は理解性に類似した魅力的な性質であるが、結果として生じる説明は、人間がモデルの局所的な振る舞いを理解して評価するには不十分であることが多い。本稿では,与えられた入力に対して,安定かつ十分な説明のシーケンスを出力するPSEM(Path-Sufficient Explanations Method)を提案する。
論文参考訳（メタデータ） (2021-09-13T16:06:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。