Fugu-MT 論文翻訳(概要): Large language models are not zero-shot communicators

論文の概要: Large language models are not zero-shot communicators

arxiv url: http://arxiv.org/abs/2210.14986v1
Date: Wed, 26 Oct 2022 19:04:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-28 13:44:40.742733
Title: Large language models are not zero-shot communicators
Title（参考訳）: 大型言語モデルはゼロショットコミュニケーターではない
Authors: Laura Ruis, Akbir Khan, Stella Biderman, Sara Hooker, Tim Rockt\"aschel, Edward Grefenstette
Abstract要約: LLMを会話エージェントとして広く使用しているにもかかわらず、性能評価はコミュニケーションの重要な側面を捉えていない。 LLMがこのような推論を行う能力を持つかどうかを考察する。私たちは、バイナリ推論を必要とする発話(yes or no)のみを評価するにもかかわらず、ほとんどの場合ランダムに近いパフォーマンスを示すことに気付きました。
参考スコア（独自算出の注目度）: 20.366191779150878
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite widespread use of LLMs as conversational agents, evaluations of performance fail to capture a crucial aspect of communication: interpreting language in context. Humans interpret language using beliefs and prior knowledge about the world. For example, we intuitively understand the response "I wore gloves" to the question "Did you leave fingerprints?" as meaning "No". To investigate whether LLMs have the ability to make this type of inference, known as an implicature, we design a simple task and evaluate widely used state-of-the-art models. We find that, despite only evaluating on utterances that require a binary inference (yes or no), most perform close to random. Models adapted to be "aligned with human intent" perform much better, but still show a significant gap with human performance. We present our findings as the starting point for further research into evaluating how LLMs interpret language in context and to drive the development of more pragmatic and useful models of human discourse.
Abstract（参考訳）: 会話エージェントとしてllmが広く使われているにもかかわらず、パフォーマンスの評価はコミュニケーションの重要な側面を捉えられていない。人間は世界に関する信念と事前知識を使って言語を解釈する。例えば、"did you leave fingerprints"という質問に対する"i wearing gloves"の反応を直感的に理解しています。 LLMがこのような推論を行う能力を持つかどうかを調べるため、簡単なタスクを設計し、広く使われている最先端モデルを評価する。バイナリ推論(yesかno)が必要な発話についてのみ評価するにも関わらず、ほとんどがランダムに近いパフォーマンスを示すことが分かりました。に適応したモデルは、より優れた性能を発揮するが、それでも人間のパフォーマンスと大きなギャップが示される。本研究は,llmsが文脈における言語をどのように解釈するかを評価するためのさらなる研究の出発点として,より実用的かつ有用な人間の談話のモデルの開発を推進する。

関連論文リスト

On the Same Wavelength? Evaluating Pragmatic Reasoning in Language Models across Broad Concepts [69.69818198773244]
本研究では,言語理解と言語生産の両面で,多種多様なLMについて検討する。最先端のLMは小さくはないが,言語理解において高い性能を発揮する。
論文参考訳（メタデータ） (2025-09-08T17:59:32Z)
Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth [21.092167028989632]
ドライブロロジーは「深みのあるナンセンス」によって特徴づけられる言語現象である我々は、英語、マンダリン、スペイン語、フランス語、日本語、韓国語で、1200以上の精巧にキュレートされ、多様なサンプルのベンチマークデータセットを構築した。現在の大規模言語モデル (LLM) は,ドライブロジカルテキストの階層的意味論の理解に一貫して失敗している。
論文参考訳（メタデータ） (2025-09-04T03:58:55Z)
How LLMs Comprehend Temporal Meaning in Narratives: A Case Study in Cognitive Evaluation of LLMs [13.822169295436177]
本研究では,人文研究に用いられた物語において,大規模言語モデル(LLM)が言語的側面の時間的意味をどう扱うかを検討する。以上の結果から,LLMは原型性に過度に依存し,相反する側面判断を生じ,側面から派生した因果推論に苦慮することが明らかとなった。これらの結果は,LLMのプロセスの側面が人間と根本的に異なり,ロバストな物語理解が欠如していることを示唆している。
論文参考訳（メタデータ） (2025-07-18T18:28:35Z)
Feasibility with Language Models for Open-World Compositional Zero-Shot Learning [96.6544564242316]
オープンワールド構成ゼロショット学習では、全ての状態オブジェクトの組み合わせは目に見えないクラスと見なされる。本研究は、外部補助知識を用いて状態-対象の組み合わせの実現可能性を決定することに焦点を当てる。
論文参考訳（メタデータ） (2025-05-16T12:37:08Z)
Do LLMs Understand Ambiguity in Text? A Case Study in Open-world Question Answering [15.342415325821063]
自然言語の曖昧さは、オープンドメインの質問応答に使用される大規模言語モデル(LLM)に重大な課題をもたらす。我々は,明示的曖昧化戦略の効果を計測することに集中して,市販のLLM性能と数発のLLM性能を比較した。本研究では, 難解な問合せタスクにおいて, LLM性能を向上させるために, 簡単な, トレーニング不要, トークンレベルの曖昧さを効果的に活用できることを実証する。
論文参考訳（メタデータ） (2024-11-19T10:27:26Z)
Traffic Light or Light Traffic? Investigating Phrasal Semantics in Large Language Models [41.233879429714925]
本研究は,フレーズ意味論を理解するためのAPIベースの大規模言語モデルの能力について批判的に考察する。自然言語命令で指示されたフレーズ意味推論タスクの実行におけるLLMの性能を評価する。句意味論の理解において, LLM が直面する制約を解釈するために, 詳細な誤り解析を行う。
論文参考訳（メタデータ） (2024-10-03T08:44:17Z)
From Form(s) to Meaning: Probing the Semantic Depths of Language Models Using Multisense Consistency [13.154753046052527]
言語間の一貫性とパラフレーズに重点を置いています。モデルのマルチセンス一貫性が欠如していることに気付き、検証のためにいくつかのフォローアップ分析を実行する。この観点では、LLMの理解は、一貫性と人間的類似性にはまだ程遠い、と結論付けています。
論文参考訳（メタデータ） (2024-04-18T12:48:17Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
Learning to Generate Explainable Stock Predictions using Self-Reflective Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文参考訳（メタデータ） (2024-02-06T03:18:58Z)
AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。数学的推論とコモンセンス推論の実験を行う。
論文参考訳（メタデータ） (2023-11-22T17:24:21Z)
Large Language Models: The Need for Nuance in Current Debates and a Pragmatic Perspective on Understanding [1.3654846342364308]
LLM(Large Language Models)は、文法的に正しい、流動的なテキストを生成する能力において、非並列である。本論文は,LLM能力の批判において再発する3点を批判的に評価する。 LLMにおける現実の理解と意図の問題に関する実践的な視点を概説する。
論文参考訳（メタデータ） (2023-10-30T15:51:04Z)
Large Language Models are In-Context Semantic Reasoners rather than Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文参考訳（メタデータ） (2023-05-24T07:33:34Z)
Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文参考訳（メタデータ） (2023-05-24T06:41:09Z)
Evaluating statistical language models as pragmatic reasoners [39.72348730045737]
我々は,語学的な発話の意味を推測するために,大規模言語モデルの能力を評価する。 LLMは、複数の複雑な実用的発話の解釈に対して、文脈的、人間的な分布を導出することができる。結果は,統計的言語モデルの推論能力と,実践的・意味論的解析への応用について報告する。
論文参考訳（メタデータ） (2023-05-01T18:22:10Z)
Shortcut Learning of Large Language Models in Natural Language Understanding [119.45683008451698]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。これは、その一般化性と敵対的堅牢性に大きな影響を与えている。
論文参考訳（メタデータ） (2022-08-25T03:51:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。