Fugu-MT 論文翻訳(概要): Log Probabilities Are a Reliable Estimate of Semantic Plausibility in Base and Instruction-Tuned Language Models

論文の概要: Log Probabilities Are a Reliable Estimate of Semantic Plausibility in Base and Instruction-Tuned Language Models

arxiv url: http://arxiv.org/abs/2403.14859v2
Date: Mon, 21 Oct 2024 11:25:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.507761
Title: Log Probabilities Are a Reliable Estimate of Semantic Plausibility in Base and Instruction-Tuned Language Models
Title（参考訳）: ログ確率は、ベースモデルと命令型言語モデルにおける意味的可塑性の信頼性評価である
Authors: Carina Kauf, Emmanuele Chersoni, Alessandro Lenci, Evelina Fedorenko, Anna A. Ivanova,
Abstract要約: 意味的妥当性を評価するため,LogProbsの有効性と基本的なプロンプトを評価した。 LogProbsは、直接ゼロショットプロンプトよりも、より信頼性の高いセマンティックな妥当性を提供する。我々は,プロンプトベースの評価の時代においても,LogProbsは意味的妥当性の有用な指標である,と結論付けた。
参考スコア（独自算出の注目度）: 50.15455336684986
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Semantic plausibility (e.g. knowing that "the actor won the award" is more likely than "the actor won the battle") serves as an effective proxy for general world knowledge. Language models (LMs) capture vast amounts of world knowledge by learning distributional patterns in text, accessible via log probabilities (LogProbs) they assign to plausible vs. implausible outputs. The new generation of instruction-tuned LMs can now also provide explicit estimates of plausibility via prompting. Here, we evaluate the effectiveness of LogProbs and basic prompting to measure semantic plausibility, both in single-sentence minimal pairs (Experiment 1) and short context-dependent scenarios (Experiment 2). We find that (i) in both base and instruction-tuned LMs, LogProbs offers a more reliable measure of semantic plausibility than direct zero-shot prompting, which yields inconsistent and often poor results; (ii) instruction-tuning generally does not alter the sensitivity of LogProbs to semantic plausibility (although sometimes decreases it); (iii) across models, context mostly modulates LogProbs in expected ways, as measured by three novel metrics of context-sensitive plausibility and their match to explicit human plausibility judgments. We conclude that, even in the era of prompt-based evaluations, LogProbs constitute a useful metric of semantic plausibility, both in base and instruction-tuned LMs.
Abstract（参考訳）: セマンティック・プラウシビリティ(例えば「俳優が受賞した」が「戦いに勝った」という認識)は、一般的な世界の知識の効果的なプロキシとして機能する。言語モデル(LM)は、分散パターンをテキストで学習し、ログ確率(LogProbs)を介してアクセスし、妥当な出力と不可解な出力を割り当てることで、膨大な量の世界知識をキャプチャする。命令調整型LMの新たな世代では、プロンプトによる検証可能性の明確な推定も可能になった。ここでは,単一文の最小ペア(実験1)と短い文脈依存シナリオ(実験2)の両方において,LogProbsの有効性と,意味的妥当性を評価するための基本的なプロンプトについて評価する。私たちはそれを見つける。 i) ベースと命令をチューニングしたLMにおいて、LogProbsは直接ゼロショットプロンプトよりも、より信頼性の高い意味的妥当性の尺度を提供する。 (ii)命令チューニングは、一般的にLogProbsの感度を意味的妥当性に変化させるものではない(ただし、時々低下する)。第三に、コンテキストは、コンテキストに敏感な3つの新しい指標と、明示的な人間の可視性判断にマッチする3つの指標によって測定されるように、期待される方法でログプロブを主に調整する。我々は,プロンプトベースの評価の時代においても,LogProbsは,ベースおよび命令調整されたLMにおいて,意味的妥当性の有用な指標となっていると結論付けた。

関連論文リスト

CAAD: Context-Aware Adaptive Decoding for Truthful Text Generation [31.469511576774252]
大規模言語モデルに対する文脈対応適応型復号法を提案する。当社のアプローチは、TrathfulQAで平均2.8%の改善を実現しています。モデルに依存しない,スケーラブルで,効率的な手法では,1世代パスしか必要としない。
論文参考訳（メタデータ） (2025-08-04T08:28:25Z)
What Are the Odds? Language Models Are Capable of Probabilistic Reasoning [23.487484744911995]
本稿では,言語モデル(LM)の確率論的推論能力を,理想化および実世界の統計分布を用いて評価することに集中する。本研究では,パーセンタイルの推定,サンプルの描画,確率の計算という3つのタスクにおいて,最先端のLMの体系的評価を行う。
論文参考訳（メタデータ） (2024-06-18T17:51:24Z)
LINC: A Neurosymbolic Approach for Logical Reasoning by Combining Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文参考訳（メタデータ） (2023-10-23T17:58:40Z)
QA-NatVer: Question Answering for Natural Logic-based Fact Verification [11.002475880349452]
我々は自然論理演算子を予測するために質問応答を用いることを提案する。 FEVERのいくつかの設定では、我々のアプローチは最高のベースラインを4.3ドルの精度で上回っている。人間の評価から,本手法は,従来の自然論理に基づくシステムよりも,誤動作の少ない自然論理演算子でより妥当であることが示唆された。
論文参考訳（メタデータ） (2023-10-22T06:27:31Z)
Prototype-based Aleatoric Uncertainty Quantification for Cross-modal Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-29T09:41:19Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
Evaluating statistical language models as pragmatic reasoners [39.72348730045737]
我々は,語学的な発話の意味を推測するために,大規模言語モデルの能力を評価する。 LLMは、複数の複雑な実用的発話の解釈に対して、文脈的、人間的な分布を導出することができる。結果は,統計的言語モデルの推論能力と,実践的・意味論的解析への応用について報告する。
論文参考訳（メタデータ） (2023-05-01T18:22:10Z)
MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。 WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文参考訳（メタデータ） (2022-12-16T17:36:23Z)
Logical Satisfiability of Counterfactuals for Faithful Explanations in NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。これは、説明に表される論理述語に基づいて、反実仮説を生成する。そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文参考訳（メタデータ） (2022-05-25T03:40:59Z)
When Stability meets Sufficiency: Informative Explanations that do not Overwhelm [15.897648942908747]
入力の分類を正当化するためには、何が最小限に必要かを強調する特徴に基づく属性法を考える。最小限の充足性は理解性に類似した魅力的な性質であるが、結果として生じる説明は、人間がモデルの局所的な振る舞いを理解して評価するには不十分であることが多い。本稿では,与えられた入力に対して,安定かつ十分な説明のシーケンスを出力するPSEM(Path-Sufficient Explanations Method)を提案する。
論文参考訳（メタデータ） (2021-09-13T16:06:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。