論文の概要: Uncovering Autoregressive LLM Knowledge of Thematic Fit in Event Representation
- arxiv url: http://arxiv.org/abs/2410.15173v1
- Date: Sat, 19 Oct 2024 18:25:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:21:27.532345
- Title: Uncovering Autoregressive LLM Knowledge of Thematic Fit in Event Representation
- Title(参考訳): イベント表現におけるテーマフィットの自己回帰的LLM知識の発見
- Authors: Safeyah Khaled Alshemali, Daniel Bauer, Yuval Marton,
- Abstract要約: 我々は,事前学習した自己回帰型LLMが,テーマ適合性に関する一貫した表現可能な知識を持っているかどうかを評価する。
いくつかの心理言語学的データセットを用いて, 閉じた状態とオープンな状態のLLMを評価した。
本結果は,自己説明型セマンティックロールラベルを持つデータセットに対して,連鎖推論がより効果的であることを示す。
- 参考スコア(独自算出の注目度): 0.09558392439655014
- License:
- Abstract: The thematic fit estimation task measures the compatibility between a predicate (typically a verb), an argument (typically a noun phrase), and a specific semantic role assigned to the argument. Previous state-of-the-art work has focused on modeling thematic fit through distributional or neural models of event representation, trained in a supervised fashion with indirect labels. In this work, we assess whether pre-trained autoregressive LLMs possess consistent, expressible knowledge about thematic fit. We evaluate both closed and open state-of-the-art LLMs on several psycholinguistic datasets, along three axes: (1) Reasoning Form: multi-step logical reasoning (chain-of-thought prompting) vs. simple prompting. (2) Input Form: providing context (generated sentences) vs. raw tuples <predicate, argument, role>. (3) Output Form: categorical vs. numeric. Our results show that chain-of-thought reasoning is more effective on datasets with self-explanatory semantic role labels, especially Location. Generated sentences helped only in few settings, and lowered results in many others. Predefined categorical (compared to numeric) output raised GPT's results across the board with few exceptions, but lowered Llama's. We saw that semantically incoherent generated sentences, which the models lack the ability to consistently filter out, hurt reasoning and overall performance too. Our GPT-powered methods set new state-of-the-art on all tested datasets.
- Abstract(参考訳): テーマ適合推定タスクは述語(典型的には動詞)、引数(典型的には名詞句)、および引数に割り当てられた特定の意味的役割の間の互換性を測定する。
これまでの最先端の研究は、間接ラベルで教師付き方法で訓練されたイベント表現の分布モデルやニューラルモデルを通じて、テーマ適合をモデル化することに集中してきた。
本研究では,事前学習した自己回帰型LLMが,テーマ適合性に関する一貫した表現可能な知識を持っているかを評価する。
1)推論形式:多段階論理的推論(チェーン・オブ・ソート・プロンプト)と単純なプロンプト。
(2)入力フォーム: コンテキスト(生成された文)と生のタプル(述語、引数、ロール)を提供する。
(3)出力形式:分類対数値
この結果から,連鎖推論は自己説明型セマンティックロールラベルを持つデータセット,特にロケーションにおいてより効果的であることが示唆された。
生成した文は少数の設定でしか役に立たないため、他の多くの文では結果が下がった。
事前定義された分類(数値に比較して)の出力は、GPTの結果をボード全体でわずかに例外なく引き上げたが、ラマの結果を下げた。
セマンティックに一貫性のない文が生成されるのを見て、モデルには一貫してフィルタリングする能力がなく、推論が損なわれ、全体的なパフォーマンスも損なわれました。
我々のGPTを利用した手法は、テストされたすべてのデータセットに新しい最先端を設定できる。
関連論文リスト
- Inference and Verbalization Functions During In-Context Learning [7.544880309193842]
大規模言語モデル(LM)は、推論中の新しいタスクを解決するために、いくつかのデモからコンテキスト内で学習することができる。
以前の研究では、いくつかの設定では、ICLのパフォーマンスは無関係なラベルによって最小限に影響を受けることが観察された。
我々は、LMが2つのシーケンシャルなプロセスを通して無関係なラベルでICLを実行すると仮定する:タスクを解く推論関数と、ラベル空間に推論された回答をマッピングする動詞化関数である。
論文 参考訳(メタデータ) (2024-10-12T03:31:37Z) - Topic Modeling with Fine-tuning LLMs and Bag of Sentences [1.8592384822257952]
FT-Topicはトピックモデリングのための教師なしの微調整手法である。
SenCluは1つのトピックに対する文群の高速な推測とハードな割り当てを実現する、最先端のトピックモデリング手法である。
論文 参考訳(メタデータ) (2024-08-06T11:04:07Z) - Categorical Syllogisms Revisited: A Review of the Logical Reasoning Abilities of LLMs for Analyzing Categorical Syllogism [62.571419297164645]
本稿では,分類的シロジズムを解析するための大規模言語モデルの論理的推論能力に関する先行研究を体系的に概説する。
まず、純粋に論理的な観点から分類的シロジズムの可能なバリエーションについて検討する。
次に、既存のデータセットでテストされた基本的な設定(ムードとフィギュア)を調べます。
論文 参考訳(メタデータ) (2024-06-26T21:17:20Z) - How Abstract Is Linguistic Generalization in Large Language Models?
Experiments with Argument Structure [2.530495315660486]
本研究では,事前学習したトランスフォーマーに基づく大規模言語モデルがコンテキスト間の関係を表現する程度について検討する。
LLMは、関連する文脈間の新しい名詞引数の分布を一般化する上で、よく機能することがわかった。
しかし、LCMは事前学習中に観測されていない関連するコンテキスト間の一般化に失敗する。
論文 参考訳(メタデータ) (2023-11-08T18:58:43Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - "I'd Like to Have an Argument, Please": Argumentative Reasoning in Large Language Models [0.0]
議論的推論を行う2つの大規模言語モデル(LLM)の性能を評価する。
AM と APE では LLM のスコアが SOTA に匹敵するか上回っていることがわかった。
しかしながら、LLMの統計的解析は、小さいが、まだ可読である場合、I/O表現の変化は、モデルが推論を実行していないことを示している。
論文 参考訳(メタデータ) (2023-09-29T02:41:38Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Not wacky vs. definitely wacky: A study of scalar adverbs in pretrained
language models [0.0]
BERT、RoBERTa、GPT-3といった現代の事前訓練された言語モデルは、古典的な静的単語の埋め込みよりも論理的なタスクでより良いパフォーマンスを期待している。
本稿では,BERT,RoBERTa,GPT-2,GPT-3が,これらの共通語に対する一般人的な知識を示す範囲について検討する。
論理的な意味のいくつかの側面を捉えているにもかかわらず、モデルは人間のパフォーマンスにかなり劣っていることが分かりました。
論文 参考訳(メタデータ) (2023-05-25T18:56:26Z) - APOLLO: A Simple Approach for Adaptive Pretraining of Language Models
for Logical Reasoning [73.3035118224719]
本稿では,論理的推論能力を改善した適応事前学習型言語モデルAPOLLOを提案する。
APOLLOはReClorで比較可能であり、LogiQAでベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-19T07:40:02Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - L2R2: Leveraging Ranking for Abductive Reasoning [65.40375542988416]
学習システムの帰納的推論能力を評価するために,帰納的自然言語推論タスク(alpha$NLI)を提案する。
新たな$L2R2$アプローチは、Learning-to-rankフレームワークの下で提案されている。
ARTデータセットの実験は、公開リーダボードの最先端に到達します。
論文 参考訳(メタデータ) (2020-05-22T15:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。