論文の概要: Entity Tracking in Language Models
- arxiv url: http://arxiv.org/abs/2305.02363v2
- Date: Fri, 8 Sep 2023 17:51:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 18:03:47.160228
- Title: Entity Tracking in Language Models
- Title(参考訳): 言語モデルにおけるエンティティ追跡
- Authors: Najoung Kim, Sebastian Schuster
- Abstract要約: エンティティの状態がテキストやダイアログとしてどのように変化するかを追跡することは、会話を理解する上で重要な前提条件である。
本稿では、初期状態の英語記述と一連の状態変化操作を与えられたエンティティの最終的な状態を、言語モデルがどの程度推測できるかを示すタスクを提案する。
我々はまず,Flan-T5,GPT-3,GPT-3.5がエンティティの状態を追跡できるかどうかを調査し,大量のコードで事前訓練されたGPT-3.5モデルのみがその能力を示すことを示した。
- 参考スコア(独自算出の注目度): 17.92475410036565
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Keeping track of how states of entities change as a text or dialog unfolds is
a key prerequisite to discourse understanding. Yet, there have been few
systematic investigations into the ability of large language models (LLMs) to
track discourse entities. In this work, we present a task probing to what
extent a language model can infer the final state of an entity given an English
description of the initial state and a series of state-changing operations. We
use this task to first investigate whether Flan-T5, GPT-3 and GPT-3.5 can track
the state of entities, and find that only GPT-3.5 models, which have been
pretrained on large amounts of code, exhibit this ability. We then investigate
whether smaller models pretrained primarily on text can learn to track
entities, through finetuning T5 on several training/evaluation splits. While
performance degrades for more complex splits, we find that even when evaluated
on a different set of entities from training or longer operation sequences, a
finetuned model can perform non-trivial entity tracking. Taken together, these
results suggest that language models can learn to track entities but
pretraining on text corpora alone does not make this capacity surface.
- Abstract(参考訳): エンティティの状態がテキストやダイアログとしてどのように変化するかを追跡することは、会話を理解する上で重要な前提条件である。
しかし,多言語モデル(LLM)による談話エンティティの追跡能力について,体系的な研究はほとんど行われていない。
本研究では、初期状態の英語記述と一連の状態変化操作を与えられたエンティティの最終的な状態を言語モデルがどの程度推測できるかを示すタスクを提案する。
我々はまず,Flan-T5,GPT-3,GPT-3.5がエンティティの状態を追跡できるかどうかを調査し,大量のコードで事前訓練されたGPT-3.5モデルのみがその能力を示すことを示した。
次に,いくつかの訓練/評価分割でt5を微調整することで,テキストを中心に事前学習した小型モデルがエンティティの追跡を学習できるかどうかを検討する。
より複雑な分割に対して性能は低下するが、トレーニングや長い操作シーケンスから異なるエンティティセットで評価されたとしても、微調整されたモデルは非自明なエンティティ追跡を行うことができる。
これらの結果は、言語モデルがエンティティを追跡することができるが、テキストコーパスだけで事前学習することは、この容量を表面化するものではないことを示唆している。
関連論文リスト
- Verbing Weirds Language (Models): Evaluation of English Zero-Derivation in Five LLMs [45.906366638174624]
本稿では,変換に関する大規模言語モデルの振る舞いに関する最初の研究を報告する。
本研究では,モデルが音声の非典型的部分を持つ構成において,単語よりも一般化できる程度をテストするタスクを設計する。
GPT-4 は GPT-3.5 に次いでタスク上で最高の性能を発揮するが,オープンソースの言語モデルでもそれを実現することができる。
論文 参考訳(メタデータ) (2024-03-26T16:45:27Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - A Text-to-Text Model for Multilingual Offensive Language Identification [19.23565690468299]
本研究では,テキスト・トゥ・テキスト・トランスフォーマを用いた攻撃的言語識別のためのエンコーダ・デコーダアーキテクチャを用いた最初の事前学習モデルを提案する(T5)。
我々の事前学習されたT5モデルは、複数の英語ベンチマークにおいて、fBERTやHateBERTのような攻撃的言語検出のために微調整された他のトランスフォーマーベースモデルよりも優れている。
同様のアプローチで、mT5を用いて攻撃的言語識別のための最初の多言語事前訓練モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-06T09:37:27Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Bidirectional Language Models Are Also Few-shot Learners [54.37445173284831]
SAP(Sequential Autoregressive Prompting)は,双方向モデルの高速化を実現する技術である。
SAPは質問応答と要約に有効であることを示す。
この結果から,より広範な言語モデルの創発的特性として,プロンプトに基づく学習が証明された。
論文 参考訳(メタデータ) (2022-09-29T01:35:57Z) - Efficient and Interpretable Neural Models for Entity Tracking [3.1985066117432934]
この論文は、エンティティ追跡モデルの使用を促進するための2つの重要な問題に焦点を当てている。
我々は、リッチな固定次元ベクトル表現を持つエンティティを表現することによって、計算効率の良いエンティティ追跡モデルを開発することができると論じる。
i) NLPアプリケーションで現在ユビキタスに使われている事前学習言語モデルを考えると、より広い範囲のアプリケーションです。
論文 参考訳(メタデータ) (2022-08-30T13:25:27Z) - mLUKE: The Power of Entity Representations in Multilingual Pretrained
Language Models [15.873069955407406]
我々は、エンティティ表現を持つ24言語で多言語モデルを訓練する。
本稿では,言語間移動タスクにおいて,単語ベース事前学習モデルより一貫して優れることを示す。
また,mLAMAデータセットを用いた多言語クローゼプロンプトタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2021-10-15T15:28:38Z) - Cross-Lingual Fine-Grained Entity Typing [26.973783464706447]
本稿では,100以上の言語を処理可能な,言語間を包含したエンティティタイピングモデルを提案する。
このモデルが学習中に見つからない言語やエンティティに一般化する能力について分析する。
論文 参考訳(メタデータ) (2021-10-15T03:22:30Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。