Fugu-MT 論文翻訳(概要): Learning Mutually Informed Representations for Characters and Subwords

論文の概要: Learning Mutually Informed Representations for Characters and Subwords

arxiv url: http://arxiv.org/abs/2311.07853v1
Date: Tue, 14 Nov 2023 02:09:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-15 15:40:31.568667
Title: Learning Mutually Informed Representations for Characters and Subwords
Title（参考訳）: 文字とサブワードの相互インフォームド表現の学習
Authors: Yilin Wang, Xinyi Hu, Matthew R. Gormley
Abstract要約: 本稿では,文字とサブワードの言語モデルを組み合わせることを目的とした絡み合いモデルを提案する。視覚言語モデルにインスパイアされた我々のモデルは、文字とサブワードを別のモダリティとして扱う。本稿では,テキスト分類,エンティティ認識,POSタグ付けタスクについて評価する。
参考スコア（独自算出の注目度）: 29.43428615637264
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most pretrained language models rely on subword tokenization, which processes text as a sequence of subword tokens. However, different granularities of text, such as characters, subwords, and words, can contain different kinds of information. Previous studies have shown that incorporating multiple input granularities improves model generalization, yet very few of them outputs useful representations for each granularity. In this paper, we introduce the entanglement model, aiming to combine character and subword language models. Inspired by vision-language models, our model treats characters and subwords as separate modalities, and it generates mutually informed representations for both granularities as output. We evaluate our model on text classification, named entity recognition, and POS-tagging tasks. Notably, the entanglement model outperforms its backbone language models, particularly in the presence of noisy texts and low-resource languages. Furthermore, the entanglement model even outperforms larger pre-trained models on all English sequence labeling tasks and classification tasks. Our anonymized code is available at https://anonymous.4open.science/r/noisy-IE-A673
Abstract（参考訳）: 事前訓練された言語モデルは、テキストをサブワードトークンのシーケンスとして処理するサブワードトークン化に依存している。しかし、文字、サブワード、単語などのテキストの粒度の違いは、異なる種類の情報を含むことができる。これまでの研究では、複数の入力粒度を組み込むことでモデル一般化が改善されるが、各粒度に対して有用な表現を出力するものはごくわずかである。本稿では,文字とサブワードの言語モデルを組み合わせた絡み合いモデルを提案する。視覚言語モデルにインスパイアされた我々のモデルは、文字とサブワードを個別のモダリティとして扱い、両者の粒度の相互情報表現を出力として生成する。我々は、テキスト分類、名前付きエンティティ認識、posタグタスクに関するモデルを評価する。特に、絡み合いモデルはバックボーン言語モデルよりも優れており、特にノイズの多いテキストや低リソース言語が存在する。さらに、絡み合いモデルは、すべての英語シーケンスラベリングタスクと分類タスクにおいて、より大きな事前訓練されたモデルよりも優れている。私たちの匿名コードはhttps://anonymous.4open.science/r/noisy-IE-A673で利用可能です。

関連論文リスト

Lossless Vocabulary Reduction for Auto-Regressive Language Models [21.015330660860865]
トークンと呼ばれるサブワードのシーケンスに所定のテキストを分解するプロセスであるトークン化は、言語モデルの開発において重要なコンポーネントの1つである。我々は、与えられた自己回帰言語モデルを任意に小さな語彙を持つ言語に変換する、損失のない語彙還元の理論的枠組みを確立する。アプリケーションとして、異なるトークン化を持つ言語モデルが、最大共通語彙によって互いに効率的に協調できることを実証する。
論文参考訳（メタデータ） (2025-10-09T11:38:48Z)
Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文参考訳（メタデータ） (2024-03-26T12:47:39Z)
Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文参考訳（メタデータ） (2024-01-20T20:55:21Z)
CompoundPiece: Evaluating and Improving Decompounding Performance of Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。 We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。分割のための専用モデルを訓練するための新しい手法を導入する。
論文参考訳（メタデータ） (2023-05-23T16:32:27Z)
Inducing Character-level Structure in Subword-based Language Models with Type-level Interchange Intervention Training [36.19870483966741]
サブワードに基づく言語モデルの中で,ロバストで解釈可能な文字表現を学習するための因果介入フレームワークを開発した。本手法は,各文字を因果モデルにおける型付き変数として扱い,そのような因果構造を学習する。さらに、意味やシーケンスレベルの文脈に依存して体系的に変化する文字レベルのタスク群も導入する。
論文参考訳（メタデータ） (2022-12-19T22:37:46Z)
What do tokens know about their characters and how do they know it? [3.8254443661593633]
サブワードトークン化スキームを用いた事前学習型言語モデルは,文字レベルの情報を必要とする様々な言語タスクで成功することを示す。これらのモデルが文字レベル情報を強固にエンコードし、一般に、より大きなモデルがそのタスクにおいてより優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2022-06-06T13:27:26Z)
Between words and characters: A Brief History of Open-Vocabulary Modeling and Tokenization in NLP [22.772546707304766]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。すべてのアプリケーションに対して銀の弾丸特異解が存在することはあり得ない。
論文参考訳（メタデータ） (2021-12-20T13:04:18Z)
Models In a Spelling Bee: Language Models Implicitly Learn the Character Composition of Tokens [22.55706811131828]
事前訓練された言語モデルの埋め込み層を探索する。モデルが単語全体とサブワードトークンの内部文字構成を学習することを示す。
論文参考訳（メタデータ） (2021-08-25T11:48:05Z)
Charformer: Fast Character Transformers via Gradient-based Subword Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文参考訳（メタデータ） (2021-06-23T22:24:14Z)
Sentiment analysis in tweets: an assessment study from classical to modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文参考訳（メタデータ） (2021-05-29T21:05:28Z)
Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文参考訳（メタデータ） (2021-04-15T02:36:49Z)
BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文参考訳（メタデータ） (2020-04-29T04:01:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。