論文の概要: Are LLMs good pragmatic speakers?
- arxiv url: http://arxiv.org/abs/2411.01562v1
- Date: Sun, 03 Nov 2024 13:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:44:43.548887
- Title: Are LLMs good pragmatic speakers?
- Title(参考訳): LLMは実用的なスピーカーか?
- Authors: Mingyue Jian, Siddharth Narayanaswamy,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語のプラグマティクスを含むと仮定されたデータに基づいて訓練されているが、実際にはプラグマティクス話者のように振る舞うのか?
我々は,人間のコミュニケーションにおける実践的推論をモデル化するRational Speech Act (RSA) フレームワークを用いて,この問題に答えようとしている。
LLMのスコアはRSAのスコアと何らかの正の相関があるが、現実的な話者のように振る舞うという十分な証拠はない。
- 参考スコア(独自算出の注目度): 3.4113474745671923
- License:
- Abstract: Large language models (LLMs) are trained on data assumed to include natural language pragmatics, but do they actually behave like pragmatic speakers? We attempt to answer this question using the Rational Speech Act (RSA) framework, which models pragmatic reasoning in human communication. Using the paradigm of a reference game constructed from the TUNA corpus, we score candidate referential utterances in both a state-of-the-art LLM (Llama3-8B-Instruct) and in the RSA model, comparing and contrasting these scores. Given that RSA requires defining alternative utterances and a truth-conditional meaning function, we explore such comparison for different choices of each of these requirements. We find that while scores from the LLM have some positive correlation with those from RSA, there isn't sufficient evidence to claim that it behaves like a pragmatic speaker. This initial study paves way for further targeted efforts exploring different models and settings, including human-subject evaluation, to see if LLMs truly can, or be made to, behave like pragmatic speakers.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語のプラグマティクスを含むと仮定されたデータに基づいて訓練されているが、実際にはプラグマティクス話者のように振る舞うのか?
我々は,人間のコミュニケーションにおける実践的推論をモデル化するRational Speech Act (RSA) フレームワークを用いて,この問題に答えようとしている。
TUNAコーパスから構築された参照ゲームのパラダイムを用いて、最先端のLLM(Llama3-8B-Instruct)とRSAモデルの両方で候補参照発話をスコアし、これらのスコアを比較して比較する。
RSAが代替発話と真理条件の意味関数を定義する必要があることを考慮し、これらの要件の異なる選択に対するそのような比較について検討する。
LLMのスコアはRSAのスコアと何らかの正の相関があるが、現実的な話者のように振る舞うという十分な証拠はない。
この最初の研究は、LLMが真に実用的話者のように振る舞うことができるかどうかを確認するために、人間の対象評価を含む、異なるモデルや設定を探求するさらなる目標を導いた。
関連論文リスト
- Kallini et al. (2024) do not compare impossible languages with constituency-based ones [0.0]
言語理論の中心的な目的は、「可能な人間言語」という概念を特徴づけることである。
NLPアプリケーションにおける最近の大規模言語モデル(LLM)は、LLMがこの目標を満たす計算機器である可能性を高める。
私は、この矛盾を説明し、根底にある問題を適切にテストする比較を構築するためのいくつかの方法を提案します。
論文 参考訳(メタデータ) (2024-10-16T06:16:30Z) - One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [55.35278531907263]
本稿では,大言語モデルの公平性と頑健性に関する最初の研究を標準的推論タスクにおける方言に提示する。
我々は、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えるために、AAVEスピーカーを採用。
標準英語と比較して、これらの広く使われているモデルのほとんどは、AAVEのクエリに対して重大な脆さと不公平さを示している。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。
RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。
RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文 参考訳(メタデータ) (2024-06-06T17:34:24Z) - Large language models and linguistic intentionality [0.0]
代わりに、言語モデルが言語内容の最高のメタセマンティック理論によって与えられる基準を満たすかどうかを検討するべきだと論じる。
LLMが精神的な意図性のために妥当な条件を満たせなかったことが、アウトプットを意味のないものにしていると考えるのは間違いだと私は主張する。
論文 参考訳(メタデータ) (2024-04-15T08:37:26Z) - PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。
LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。
我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文 参考訳(メタデータ) (2024-04-03T04:53:14Z) - Evaluating Gender Bias in Large Language Models via Chain-of-Thought
Prompting [87.30837365008931]
CoT(Chain-of-Thought)プロンプトを備えた大規模言語モデル(LLM)は、計算不能なタスクでも正確なインクリメンタルな予測を行うことができる。
本研究では,LLMのステップバイステップ予測が性差に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2024-01-28T06:50:10Z) - How Proficient Are Large Language Models in Formal Languages? An In-Depth Insight for Knowledge Base Question Answering [52.86931192259096]
知識ベース質問回答(KBQA)は,知識ベースにおける事実に基づいた自然言語質問への回答を目的としている。
最近の研究は、論理形式生成のための大規模言語モデル(LLM)の機能を活用して性能を向上させる。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Evaluating statistical language models as pragmatic reasoners [39.72348730045737]
我々は,語学的な発話の意味を推測するために,大規模言語モデルの能力を評価する。
LLMは、複数の複雑な実用的発話の解釈に対して、文脈的、人間的な分布を導出することができる。
結果は,統計的言語モデルの推論能力と,実践的・意味論的解析への応用について報告する。
論文 参考訳(メタデータ) (2023-05-01T18:22:10Z) - The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters
for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。
2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。
これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文 参考訳(メタデータ) (2022-10-26T19:04:23Z) - Learning to refer informatively by amortizing pragmatic reasoning [35.71540493379324]
我々は、話者が時間とともに合理的な音声行為のコストを減らそうとするアイデアを探求する。
我々のアモータライズされたモデルは、様々な文脈で効果的かつ簡潔な言語を迅速に生成できることがわかりました。
論文 参考訳(メタデータ) (2020-05-31T02:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。