論文の概要: Metadata Might Make Language Models Better
- arxiv url: http://arxiv.org/abs/2211.10086v1
- Date: Fri, 18 Nov 2022 08:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 15:17:34.019959
- Title: Metadata Might Make Language Models Better
- Title(参考訳): メタデータは言語モデルを改善する
- Authors: Kaspar Beelen and Daniel van Strien
- Abstract要約: 19世紀の新聞をケーススタディとして、マスケッド言語モデルに時間的、政治的、地理的情報を挿入するための異なる戦略を比較した。
関連するメタデータを言語モデルに示すことは有益な影響があり、より堅牢で公平なモデルを生成することさえあることに気付きました。
- 参考スコア(独自算出の注目度): 1.7100280218774935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper discusses the benefits of including metadata when training
language models on historical collections. Using 19th-century newspapers as a
case study, we extend the time-masking approach proposed by Rosin et al., 2022
and compare different strategies for inserting temporal, political and
geographical information into a Masked Language Model. After fine-tuning
several DistilBERT on enhanced input data, we provide a systematic evaluation
of these models on a set of evaluation tasks: pseudo-perplexity, metadata
mask-filling and supervised classification. We find that showing relevant
metadata to a language model has a beneficial impact and may even produce more
robust and fairer models.
- Abstract(参考訳): 本稿では,歴史コレクションにおける言語モデルの学習におけるメタデータの活用の利点について述べる。
19世紀の新聞を事例として、2022年にrosinらによって提案されたタイムマスキングアプローチを拡張し、時間的、政治的、地理的な情報をマスキング言語モデルに挿入する様々な戦略を比較した。
複数のDistilBERTを改良された入力データに微調整した後、擬似パープレキシティ、メタデータマスフィリング、教師付き分類といった一連の評価タスクでこれらのモデルを体系的に評価する。
関連するメタデータを言語モデルに示すことは有益な影響があり、より堅牢で公平なモデルを生み出すことさえあります。
関連論文リスト
- Revisiting Topic-Guided Language Models [20.21486464604549]
4つのトピック誘導言語モデルと2つのベースラインについて検討し、4つのコーパス上で各モデルの保留予測性能を評価する。
これらの手法はいずれも標準のLSTM言語モデルのベースラインを上回りません。
論文 参考訳(メタデータ) (2023-12-04T20:33:24Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Pre-trained Language Model with Prompts for Temporal Knowledge Graph
Completion [30.50032335014021]
我々は、新しいTKGCモデル、すなわち、TKGC(PPT)のための Prompts 付き事前学習言語モデルを提案する。
サンプルの四重項を事前訓練した言語モデル入力に変換し、タイムスタンプ間の間隔を異なるプロンプトに変換することで、暗黙的な意味情報を持つ一貫性のある文を生成する。
我々のモデルは、時間的知識グラフからの情報を言語モデルに効果的に組み込むことができる。
論文 参考訳(メタデータ) (2023-05-13T12:53:11Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Interpreting Language Models Through Knowledge Graph Extraction [42.97929497661778]
BERTに基づく言語モデルを,学習過程の逐次的な段階において取得した知識のスナップショットを通じて比較する。
本稿では, クローズイン・ザ・ブランク文から知識グラフを抽出し, 知識獲得のタイムラインを提示する手法を提案する。
この分析を, BERTモデル(DistilBERT, BERT-base, RoBERTa)の事前学習変化の比較に拡張する。
論文 参考訳(メタデータ) (2021-11-16T15:18:01Z) - On the Evaluation of Commit Message Generation Models: An Experimental
Study [33.19314967188712]
コミットメッセージは、コード変更の自然言語記述であり、プログラムの理解とメンテナンスに重要である。
コミットメッセージを自動的に生成するために, 生成手法や検索手法を利用した様々な手法が提案されている。
本稿では,最先端のモデルとデータセットの体系的,詳細な分析を行う。
論文 参考訳(メタデータ) (2021-07-12T12:38:02Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。