論文の概要: Large language models are not zero-shot communicators
- arxiv url: http://arxiv.org/abs/2210.14986v1
- Date: Wed, 26 Oct 2022 19:04:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 13:44:40.742733
- Title: Large language models are not zero-shot communicators
- Title(参考訳): 大型言語モデルはゼロショットコミュニケーターではない
- Authors: Laura Ruis, Akbir Khan, Stella Biderman, Sara Hooker, Tim
Rockt\"aschel, Edward Grefenstette
- Abstract要約: LLMを会話エージェントとして広く使用しているにもかかわらず、性能評価はコミュニケーションの重要な側面を捉えていない。
LLMがこのような推論を行う能力を持つかどうかを考察する。
私たちは、バイナリ推論を必要とする発話(yes or no)のみを評価するにもかかわらず、ほとんどの場合ランダムに近いパフォーマンスを示すことに気付きました。
- 参考スコア(独自算出の注目度): 20.366191779150878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite widespread use of LLMs as conversational agents, evaluations of
performance fail to capture a crucial aspect of communication: interpreting
language in context. Humans interpret language using beliefs and prior
knowledge about the world. For example, we intuitively understand the response
"I wore gloves" to the question "Did you leave fingerprints?" as meaning "No".
To investigate whether LLMs have the ability to make this type of inference,
known as an implicature, we design a simple task and evaluate widely used
state-of-the-art models. We find that, despite only evaluating on utterances
that require a binary inference (yes or no), most perform close to random.
Models adapted to be "aligned with human intent" perform much better, but still
show a significant gap with human performance. We present our findings as the
starting point for further research into evaluating how LLMs interpret language
in context and to drive the development of more pragmatic and useful models of
human discourse.
- Abstract(参考訳): 会話エージェントとしてllmが広く使われているにもかかわらず、パフォーマンスの評価はコミュニケーションの重要な側面を捉えられていない。
人間は世界に関する信念と事前知識を使って言語を解釈する。
例えば、"did you leave fingerprints"という質問に対する"i wearing gloves"の反応を直感的に理解しています。
LLMがこのような推論を行う能力を持つかどうかを調べるため、簡単なタスクを設計し、広く使われている最先端モデルを評価する。
バイナリ推論(yesかno)が必要な発話についてのみ評価するにも関わらず、ほとんどがランダムに近いパフォーマンスを示すことが分かりました。
に適応したモデルは、より優れた性能を発揮するが、それでも人間のパフォーマンスと大きなギャップが示される。
本研究は,llmsが文脈における言語をどのように解釈するかを評価するためのさらなる研究の出発点として,より実用的かつ有用な人間の談話のモデルの開発を推進する。
関連論文リスト
- Do LLMs Understand Ambiguity in Text? A Case Study in Open-world Question Answering [15.342415325821063]
自然言語の曖昧さは、オープンドメインの質問応答に使用される大規模言語モデル(LLM)に重大な課題をもたらす。
我々は,明示的曖昧化戦略の効果を計測することに集中して,市販のLLM性能と数発のLLM性能を比較した。
本研究では, 難解な問合せタスクにおいて, LLM性能を向上させるために, 簡単な, トレーニング不要, トークンレベルの曖昧さを効果的に活用できることを実証する。
論文 参考訳(メタデータ) (2024-11-19T10:27:26Z) - Traffic Light or Light Traffic? Investigating Phrasal Semantics in Large Language Models [41.233879429714925]
本研究は,フレーズ意味論を理解するためのAPIベースの大規模言語モデルの能力について批判的に考察する。
自然言語命令で指示されたフレーズ意味推論タスクの実行におけるLLMの性能を評価する。
句意味論の理解において, LLM が直面する制約を解釈するために, 詳細な誤り解析を行う。
論文 参考訳(メタデータ) (2024-10-03T08:44:17Z) - From Form(s) to Meaning: Probing the Semantic Depths of Language Models Using Multisense Consistency [13.154753046052527]
言語間の一貫性とパラフレーズに重点を置いています。
モデルのマルチセンス一貫性が欠如していることに気付き、検証のためにいくつかのフォローアップ分析を実行する。
この観点では、LLMの理解は、一貫性と人間的類似性にはまだ程遠い、と結論付けています。
論文 参考訳(メタデータ) (2024-04-18T12:48:17Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Large Language Models: The Need for Nuance in Current Debates and a
Pragmatic Perspective on Understanding [1.3654846342364308]
LLM(Large Language Models)は、文法的に正しい、流動的なテキストを生成する能力において、非並列である。
本論文は,LLM能力の批判において再発する3点を批判的に評価する。
LLMにおける現実の理解と意図の問題に関する実践的な視点を概説する。
論文 参考訳(メタデータ) (2023-10-30T15:51:04Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Evaluating statistical language models as pragmatic reasoners [39.72348730045737]
我々は,語学的な発話の意味を推測するために,大規模言語モデルの能力を評価する。
LLMは、複数の複雑な実用的発話の解釈に対して、文脈的、人間的な分布を導出することができる。
結果は,統計的言語モデルの推論能力と,実践的・意味論的解析への応用について報告する。
論文 参考訳(メタデータ) (2023-05-01T18:22:10Z) - Shortcut Learning of Large Language Models in Natural Language
Understanding [119.45683008451698]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。
予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。
これは、その一般化性と敵対的堅牢性に大きな影響を与えている。
論文 参考訳(メタデータ) (2022-08-25T03:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。