論文の概要: Efficient and Interpretable Neural Models for Entity Tracking
- arxiv url: http://arxiv.org/abs/2208.14252v1
- Date: Tue, 30 Aug 2022 13:25:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-31 12:55:16.042479
- Title: Efficient and Interpretable Neural Models for Entity Tracking
- Title(参考訳): エンティティトラッキングのための効率的かつ解釈可能なニューラルモデル
- Authors: Shubham Toshniwal
- Abstract要約: この論文は、エンティティ追跡モデルの使用を促進するための2つの重要な問題に焦点を当てている。
我々は、リッチな固定次元ベクトル表現を持つエンティティを表現することによって、計算効率の良いエンティティ追跡モデルを開発することができると論じる。
i) NLPアプリケーションで現在ユビキタスに使われている事前学習言語モデルを考えると、より広い範囲のアプリケーションです。
- 参考スコア(独自算出の注目度): 3.1985066117432934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What would it take for a natural language model to understand a novel, such
as The Lord of the Rings? Among other things, such a model must be able to: (a)
identify and record new characters (entities) and their attributes as they are
introduced in the text, and (b) identify subsequent references to the
characters previously introduced and update their attributes. This problem of
entity tracking is essential for language understanding, and thus, useful for a
wide array of downstream applications in NLP such as question-answering,
summarization.
In this thesis, we focus on two key problems in relation to facilitating the
use of entity tracking models: (i) scaling entity tracking models to long
documents, such as a novel, and (ii) integrating entity tracking into language
models. Applying language technologies to long documents has garnered interest
recently, but computational constraints are a significant bottleneck in scaling
up current methods. In this thesis, we argue that computationally efficient
entity tracking models can be developed by representing entities with rich,
fixed-dimensional vector representations derived from pretrained language
models, and by exploiting the ephemeral nature of entities. We also argue for
the integration of entity tracking into language models as it will allow for:
(i) wider application given the current ubiquitous use of pretrained language
models in NLP applications, and (ii) easier adoption since it is much easier to
swap in a new pretrained language model than to integrate a separate standalone
entity tracking model.
- Abstract(参考訳): The Lord of the Ringsのような小説を理解するためには、自然言語モデルには何が必要だろうか?
とりわけ、そのようなモデルは次のようなことが可能でなければならない。
(a)テキストに紹介された新しい文字(人物)とその属性を識別し、記録する
b) 予め導入した文字への後続の参照を特定し、属性を更新する。
エンティティトラッキングの問題は言語理解に不可欠であり、質問応答や要約などのNLPにおける幅広いダウンストリームアプリケーションに有用である。
本論文では、エンティティ追跡モデルの使用促進に関する2つの重要な問題に焦点を当てる。
(i)小説等の長い文書にエンティティ追跡モデルをスケーリングすること。
(ii)エンティティ追跡を言語モデルに統合する。
言語技術を長いドキュメントに適用することは、最近関心を集めているが、計算の制約は、現在のメソッドをスケールアップする上で重要なボトルネックである。
本論文では,事前学習された言語モデルから派生したリッチで固定次元のベクトル表現を持つエンティティを表現し,エンティティの短命な性質を生かして,計算効率の高いエンティティ追跡モデルを開発することができると主張する。
また、エンティティトラッキングを言語モデルに統合することについても議論しています。
(i)現在のNLPアプリケーションにおける事前訓練言語モデルのユビキタス利用を踏まえて、幅広い応用
(ii) 独立したエンティティトラッキングモデルを統合するよりも、新しい事前学習された言語モデルをスワップする方がずっと簡単であるため、導入が容易である。
関連論文リスト
- Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Representing Knowledge by Spans: A Knowledge-Enhanced Model for
Information Extraction [7.077412533545456]
本稿では,エンティティとリレーションの両方の表現を同時に学習する事前学習モデルを提案する。
スパンをスパンモジュールで効率的に符号化することで、私たちのモデルはエンティティとそれらの関係を表現できますが、既存のモデルよりもパラメータが少なくなります。
論文 参考訳(メタデータ) (2022-08-20T07:32:25Z) - Multilingual Generative Language Models for Zero-Shot Cross-Lingual
Event Argument Extraction [80.61458287741131]
ゼロショット言語間イベント引数抽出(EAE)における多言語事前学習型生成言語モデルの活用について検討する。
EAEを言語生成タスクとして定式化することにより、イベント構造を効果的にエンコードし、引数間の依存関係をキャプチャする。
提案するモデルでは,多言語事前学習型生成言語モデルを用いて,入力文から抽出した引数で言語に依存しないテンプレートを補う文を生成する。
論文 参考訳(メタデータ) (2022-03-15T23:00:32Z) - mLUKE: The Power of Entity Representations in Multilingual Pretrained
Language Models [15.873069955407406]
我々は、エンティティ表現を持つ24言語で多言語モデルを訓練する。
本稿では,言語間移動タスクにおいて,単語ベース事前学習モデルより一貫して優れることを示す。
また,mLAMAデータセットを用いた多言語クローゼプロンプトタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2021-10-15T15:28:38Z) - Towards Continual Entity Learning in Language Models for Conversational
Agents [0.5330240017302621]
我々はエンティティ認識言語モデル(EALM)を導入し、エンティティのカタログに基づいて訓練されたエンティティモデルを事前訓練されたLMに統合する。
統合言語モデルでは,文コンテキストに応じて,エンティティモデルからの情報を事前学習したLMに適応的に付加する。
タスク指向対話データセットでは,特に長文発話では,難易度が大幅に向上した。
論文 参考訳(メタデータ) (2021-07-30T21:10:09Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。