論文の概要: The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters
for Implicature Resolution by LLMs
- arxiv url: http://arxiv.org/abs/2210.14986v2
- Date: Sun, 3 Dec 2023 17:14:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 01:50:39.857035
- Title: The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters
for Implicature Resolution by LLMs
- Title(参考訳): 実用的理解のgoldilocks: llmsによる乗法解決のための微調整戦略
- Authors: Laura Ruis, Akbir Khan, Stella Biderman, Sara Hooker, Tim
Rockt\"aschel, Edward Grefenstette
- Abstract要約: 我々は、広く使われている最先端モデルの4つのカテゴリを評価する。
2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。
これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
- 参考スコア(独自算出の注目度): 26.118193748582197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite widespread use of LLMs as conversational agents, evaluations of
performance fail to capture a crucial aspect of communication: interpreting
language in context -- incorporating its pragmatics. Humans interpret language
using beliefs and prior knowledge about the world. For example, we intuitively
understand the response "I wore gloves" to the question "Did you leave
fingerprints?" as meaning "No". To investigate whether LLMs have the ability to
make this type of inference, known as an implicature, we design a simple task
and evaluate four categories of widely used state-of-the-art models. We find
that, despite only evaluating on utterances that require a binary inference
(yes or no), models in three of these categories perform close to random.
However, LLMs instruction-tuned at the example-level perform significantly
better. These results suggest that certain fine-tuning strategies are far
better at inducing pragmatic understanding in models. We present our findings
as the starting point for further research into evaluating how LLMs interpret
language in context and to drive the development of more pragmatic and useful
models of human discourse.
- Abstract(参考訳): LLMを会話エージェントとして広く使用しているにもかかわらず、パフォーマンス評価は、言語を文脈で解釈する、という重要なコミュニケーションの側面を捉えていない。
人間は世界に関する信念と事前知識を使って言語を解釈する。
例えば、"did you leave fingerprints"という質問に対する"i wearing gloves"の反応を直感的に理解しています。
llmsがこのような推論を行う能力があるかどうかを調べるために,我々は単純なタスクを設計し,広く使われている最先端モデルの4つのカテゴリを評価する。
2進推論(yes or no)を必要とする発話のみを評価するにもかかわらず、これらのカテゴリの3つのモデルはランダムに近い性能を示す。
しかし、実例レベルで調整されたLLMでは、性能が大幅に向上した。
これらの結果は、特定の微調整戦略がモデルの実用的理解を誘導するのにはるかに優れていることを示唆している。
本研究は,llmsが文脈における言語をどのように解釈するかを評価するためのさらなる研究の出発点として,より実用的かつ有用な人間の談話のモデルの開発を推進する。
関連論文リスト
- Are LLMs good pragmatic speakers? [3.4113474745671923]
大規模言語モデル(LLM)は、自然言語のプラグマティクスを含むと仮定されたデータに基づいて訓練されているが、実際にはプラグマティクス話者のように振る舞うのか?
我々は,人間のコミュニケーションにおける実践的推論をモデル化するRational Speech Act (RSA) フレームワークを用いて,この問題に答えようとしている。
LLMのスコアはRSAのスコアと何らかの正の相関があるが、現実的な話者のように振る舞うという十分な証拠はない。
論文 参考訳(メタデータ) (2024-11-03T13:23:18Z) - Traffic Light or Light Traffic? Investigating Phrasal Semantics in Large Language Models [41.233879429714925]
本研究は,フレーズ意味論を理解するためのAPIベースの大規模言語モデルの能力について批判的に考察する。
自然言語命令で指示されたフレーズ意味推論タスクの実行におけるLLMの性能を評価する。
句意味論の理解において, LLM が直面する制約を解釈するために, 詳細な誤り解析を行う。
論文 参考訳(メタデータ) (2024-10-03T08:44:17Z) - From Form(s) to Meaning: Probing the Semantic Depths of Language Models Using Multisense Consistency [13.154753046052527]
言語間の一貫性とパラフレーズに重点を置いています。
モデルのマルチセンス一貫性が欠如していることに気付き、検証のためにいくつかのフォローアップ分析を実行する。
この観点では、LLMの理解は、一貫性と人間的類似性にはまだ程遠い、と結論付けています。
論文 参考訳(メタデータ) (2024-04-18T12:48:17Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Large Language Models: The Need for Nuance in Current Debates and a
Pragmatic Perspective on Understanding [1.3654846342364308]
LLM(Large Language Models)は、文法的に正しい、流動的なテキストを生成する能力において、非並列である。
本論文は,LLM能力の批判において再発する3点を批判的に評価する。
LLMにおける現実の理解と意図の問題に関する実践的な視点を概説する。
論文 参考訳(メタデータ) (2023-10-30T15:51:04Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Evaluating statistical language models as pragmatic reasoners [39.72348730045737]
我々は,語学的な発話の意味を推測するために,大規模言語モデルの能力を評価する。
LLMは、複数の複雑な実用的発話の解釈に対して、文脈的、人間的な分布を導出することができる。
結果は,統計的言語モデルの推論能力と,実践的・意味論的解析への応用について報告する。
論文 参考訳(メタデータ) (2023-05-01T18:22:10Z) - Shortcut Learning of Large Language Models in Natural Language
Understanding [119.45683008451698]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。
予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。
これは、その一般化性と敵対的堅牢性に大きな影響を与えている。
論文 参考訳(メタデータ) (2022-08-25T03:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。