論文の概要: Entity Tracking in Language Models
- arxiv url: http://arxiv.org/abs/2305.02363v1
- Date: Wed, 3 May 2023 18:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 18:13:51.524454
- Title: Entity Tracking in Language Models
- Title(参考訳): 言語モデルにおけるエンティティ追跡
- Authors: Najoung Kim, Sebastian Schuster
- Abstract要約: テキストやダイアログが展開するにつれて、状態やエンティティの関係がどう変化するかを追跡することは、言論理解の鍵となる前提条件である。
本稿では、初期状態の英語記述と一連の状態変化操作を与えられたエンティティの最終的な状態を、言語モデルがどの程度推測できるかを調査するタスクを提案する。
我々はまず,Flan-T5,GPT-3,GPT-3.5がエンティティの状態を追跡できるかどうかを調査し,大量のコードで事前訓練されたGPT-3.5モデルのみがその能力を示すことを示した。
- 参考スコア(独自算出の注目度): 8.90588205071002
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Keeping track of how states and relations of entities change as a text or
dialog unfolds is a key prerequisite to discourse understanding. Despite this
fact, there have been few systematic investigations into the ability of large
language models (LLMs) to track discourse entities. In this work, we present a
task to probe to what extent a language model can infer the final state of an
entity given an English description of the initial state and a series of
state-changing operations. We use this task to first investigate whether
Flan-T5, GPT-3 and GPT-3.5 can track the state of entities, and find that only
GPT-3.5 models, which have been pretrained on large amounts of code, exhibit
this ability. We then investigate whether smaller models pretrained primarily
on text can learn to track entities, through finetuning T5 on several
training/evaluation splits. While performance degrades for more complex splits,
we find that even for splits with almost no lexical overlap between training
and evaluation, a finetuned model can often perform non-trivial entity
tracking. Taken together, these results suggest that language models can learn
to track entities but pretraining on large text corpora alone does not make
this capacity surface.
- Abstract(参考訳): テキストやダイアログが展開するにつれて、状態やエンティティの関係がどう変化するかを追跡することは、言論理解の鍵となる前提条件である。
この事実にもかかわらず、対話エンティティを追跡する大規模言語モデル(LLM)の能力に関する体系的な調査はほとんど行われていない。
本研究では、初期状態の英語記述と一連の状態変化操作を与えられたエンティティの最終的な状態を、言語モデルがどの程度推測できるかを調査するタスクを提案する。
我々はまず,Flan-T5,GPT-3,GPT-3.5がエンティティの状態を追跡できるかどうかを調査し,大量のコードで事前訓練されたGPT-3.5モデルのみがその能力を示すことを示した。
次に,いくつかの訓練/評価分割でt5を微調整することで,テキストを中心に事前学習した小型モデルがエンティティの追跡を学習できるかどうかを検討する。
より複雑な分割では性能が低下するが、トレーニングと評価の間にほとんど語彙的に重複しない分割であっても、微調整されたモデルはしばしば非自明なエンティティ追跡を行う。
これらの結果は、言語モデルがエンティティを追跡することができるが、大きなテキストコーパスだけで事前学習することは、この容量を表面化するものではないことを示唆している。
関連論文リスト
- Verbing Weirds Language (Models): Evaluation of English Zero-Derivation in Five LLMs [45.906366638174624]
本稿では,変換に関する大規模言語モデルの振る舞いに関する最初の研究を報告する。
本研究では,モデルが音声の非典型的部分を持つ構成において,単語よりも一般化できる程度をテストするタスクを設計する。
GPT-4 は GPT-3.5 に次いでタスク上で最高の性能を発揮するが,オープンソースの言語モデルでもそれを実現することができる。
論文 参考訳(メタデータ) (2024-03-26T16:45:27Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - A Text-to-Text Model for Multilingual Offensive Language Identification [19.23565690468299]
本研究では,テキスト・トゥ・テキスト・トランスフォーマを用いた攻撃的言語識別のためのエンコーダ・デコーダアーキテクチャを用いた最初の事前学習モデルを提案する(T5)。
我々の事前学習されたT5モデルは、複数の英語ベンチマークにおいて、fBERTやHateBERTのような攻撃的言語検出のために微調整された他のトランスフォーマーベースモデルよりも優れている。
同様のアプローチで、mT5を用いて攻撃的言語識別のための最初の多言語事前訓練モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-06T09:37:27Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Bidirectional Language Models Are Also Few-shot Learners [54.37445173284831]
SAP(Sequential Autoregressive Prompting)は,双方向モデルの高速化を実現する技術である。
SAPは質問応答と要約に有効であることを示す。
この結果から,より広範な言語モデルの創発的特性として,プロンプトに基づく学習が証明された。
論文 参考訳(メタデータ) (2022-09-29T01:35:57Z) - Efficient and Interpretable Neural Models for Entity Tracking [3.1985066117432934]
この論文は、エンティティ追跡モデルの使用を促進するための2つの重要な問題に焦点を当てている。
我々は、リッチな固定次元ベクトル表現を持つエンティティを表現することによって、計算効率の良いエンティティ追跡モデルを開発することができると論じる。
i) NLPアプリケーションで現在ユビキタスに使われている事前学習言語モデルを考えると、より広い範囲のアプリケーションです。
論文 参考訳(メタデータ) (2022-08-30T13:25:27Z) - mLUKE: The Power of Entity Representations in Multilingual Pretrained
Language Models [15.873069955407406]
我々は、エンティティ表現を持つ24言語で多言語モデルを訓練する。
本稿では,言語間移動タスクにおいて,単語ベース事前学習モデルより一貫して優れることを示す。
また,mLAMAデータセットを用いた多言語クローゼプロンプトタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2021-10-15T15:28:38Z) - Cross-Lingual Fine-Grained Entity Typing [26.973783464706447]
本稿では,100以上の言語を処理可能な,言語間を包含したエンティティタイピングモデルを提案する。
このモデルが学習中に見つからない言語やエンティティに一般化する能力について分析する。
論文 参考訳(メタデータ) (2021-10-15T03:22:30Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。