論文の概要: Comparing Plausibility Estimates in Base and Instruction-Tuned Large Language Models
- arxiv url: http://arxiv.org/abs/2403.14859v1
- Date: Thu, 21 Mar 2024 22:08:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 18:57:02.229377
- Title: Comparing Plausibility Estimates in Base and Instruction-Tuned Large Language Models
- Title(参考訳): ベースモデルと命令型大規模言語モデルにおける可塑性推定値の比較
- Authors: Carina Kauf, Emmanuele Chersoni, Alessandro Lenci, Evelina Fedorenko, Anna A. Ivanova,
- Abstract要約: 本研究では,英語文の可読性タスクにおいて,暗黙的プロンプトと暗黙的推定を用いて,ベースおよび命令調整型LLMの性能を比較した。
実験1では、モデルアーキテクチャと可視性データセットを通して、ログ可能性(textitLL$)スコアが文の可視性を示す最も信頼性の高い指標であることが示されている。
実験2では、モデル間の$textitLL$スコアが、期待される方法でコンテキストによって変調されることを示し、コンテキストに敏感な3つのメトリクスで高いパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 50.15455336684986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-tuned LLMs can respond to explicit queries formulated as prompts, which greatly facilitates interaction with human users. However, prompt-based approaches might not always be able to tap into the wealth of implicit knowledge acquired by LLMs during pre-training. This paper presents a comprehensive study of ways to evaluate semantic plausibility in LLMs. We compare base and instruction-tuned LLM performance on an English sentence plausibility task via (a) explicit prompting and (b) implicit estimation via direct readout of the probabilities models assign to strings. Experiment 1 shows that, across model architectures and plausibility datasets, (i) log likelihood ($\textit{LL}$) scores are the most reliable indicator of sentence plausibility, with zero-shot prompting yielding inconsistent and typically poor results; (ii) $\textit{LL}$-based performance is still inferior to human performance; (iii) instruction-tuned models have worse $\textit{LL}$-based performance than base models. In Experiment 2, we show that $\textit{LL}$ scores across models are modulated by context in the expected way, showing high performance on three metrics of context-sensitive plausibility and providing a direct match to explicit human plausibility judgments. Overall, $\textit{LL}$ estimates remain a more reliable measure of plausibility in LLMs than direct prompting.
- Abstract(参考訳): インストラクションチューニングされたLLMはプロンプトとして定式化された明示的なクエリに応答できるため、人間のユーザとのインタラクションが大幅に容易になる。
しかし、プロンプトベースのアプローチは、事前学習中にLLMが獲得した暗黙の知識の富を常に活用できるとは限らない。
本稿では,LLMにおける意味的妥当性を評価するための総合的研究について述べる。
英語文の可読性タスクにおけるベースと命令調整型LLMの性能の比較を行う。
a) 明示的な促しと指示
(b)確率モデルの直接読み出しによる暗黙的な推定は文字列に割り当てる。
実験1は、モデルアーキテクチャと可視性データセットをまたいだものである。
i) log chance$\textit{LL}$) scores is the most reliable indicator of sentence plausibility, with zero-shot prompting yield inconsistent and typical poor results。
(ii) $\textit{LL}$-basedパフォーマンスは、人間のパフォーマンスにはまだ劣っている。
(iii)命令チューニングモデルでは、ベースモデルよりも$\textit{LL}$ベースのパフォーマンスが悪くなります。
実験2では、モデル間の$\textit{LL}$スコアが、期待通りにコンテキストによって変調されることを示し、文脈に敏感な3つの指標に対して高い性能を示し、明示的な人間の可視性判断に直接的な一致を提供する。
全体として、$\textit{LL}$ 推定は直接的プロンプトよりも LLM の可算性の信頼性の高い尺度である。
関連論文リスト
- Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Learning to Reduce: Optimal Representations of Structured Data in
Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。
本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。
入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文 参考訳(メタデータ) (2024-02-22T00:41:23Z) - Contrastive Instruction Tuning [66.6226795160117]
本稿では,意味論的に等価な命令-インスタンスペアの隠れ表現の類似性を最大化するコントラスト的命令チューニングを提案する。
PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文 参考訳(メタデータ) (2024-02-17T00:09:32Z) - Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。
確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。
一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文 参考訳(メタデータ) (2023-10-20T09:55:06Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Hypothesis Search: Inductive Reasoning with Language Models [41.36577403707967]
大規模言語モデル(LLM)の帰納的推論能力を改善することを提案する。
我々は LLM に対して,問題に関する複数の抽象的仮説を自然言語で提案し,その後,具体的なPython プログラムとして自然言語仮説を実装した。
我々は、ARC視覚誘導推論ベンチマーク、その変種1D-ARC、文字列変換データセットSyGuSにおけるパイプラインの有効性を検証する。
論文 参考訳(メタデータ) (2023-09-11T17:56:57Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文 参考訳(メタデータ) (2022-10-04T00:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。