論文の概要: Using Natural Language Processing to Predict Costume Core Vocabulary of
Historical Artifacts
- arxiv url: http://arxiv.org/abs/2212.07931v1
- Date: Thu, 24 Nov 2022 02:13:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 18:58:02.669121
- Title: Using Natural Language Processing to Predict Costume Core Vocabulary of
Historical Artifacts
- Title(参考訳): 自然言語処理を用いた歴史的アーティファクトの衣装コア語彙の予測
- Authors: Madhuvanti Muralikrishnan, Amr Hilal, Chreston Miller and Dina
Smith-Glaviana
- Abstract要約: 本稿では,NLP(Natural Language Processing)を用いて,歴史項目の自由形式のテキスト記述を,コスチュームコアが提供する制御語彙にマッピングする手法を提案する。
提案手法,設計選択,アプローチ開発について述べるとともに,不明瞭な記述に対するコストコア予測の可能性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Historic dress artifacts are a valuable source for human studies. In
particular, they can provide important insights into the social aspects of
their corresponding era. These insights are commonly drawn from garment
pictures as well as the accompanying descriptions and are usually stored in a
standardized and controlled vocabulary that accurately describes garments and
costume items, called the Costume Core Vocabulary. Building an accurate Costume
Core from garment descriptions can be challenging because the historic garment
items are often donated, and the accompanying descriptions can be based on
untrained individuals and use a language common to the period of the items. In
this paper, we present an approach to use Natural Language Processing (NLP) to
map the free-form text descriptions of the historic items to that of the
controlled vocabulary provided by the Costume Core. Despite the limited
dataset, we were able to train an NLP model based on the Universal Sentence
Encoder to perform this mapping with more than 90% test accuracy for a subset
of the Costume Core vocabulary. We describe our methodology, design choices,
and development of our approach, and show the feasibility of predicting the
Costume Core for unseen descriptions. With more garment descriptions still
being curated to be used for training, we expect to have higher accuracy for
better generalizability.
- Abstract(参考訳): 歴史的ドレスアーティファクトは人間の研究にとって貴重な情報源である。
特に、彼らの時代の社会的側面について重要な洞察を与えることができる。
これらの洞察は一般的に衣服の絵やそれに伴う記述から引き出され、通常、コスチュームコア語彙と呼ばれる衣服や衣装を正確に記述した標準化された制御された語彙に格納される。
衣料品が寄進されることも多いため、衣料品の記述から正確な衣料品コアを構築することは困難であり、それに付随する記述は訓練されていない個人に基づいて、アイテムの期間に共通する言語を用いることができる。
本稿では,NLP(Natural Language Processing)を用いて,歴史項目の自由形式のテキスト記述を,コスチュームコアが提供する制御語彙にマッピングする手法を提案する。
限られたデータセットにもかかわらず、Universal Sentence Encoderに基づいてNLPモデルをトレーニングし、Cosume Core語彙のサブセットに対して90%以上の精度でこのマッピングを実行しました。
提案手法,設計選択,アプローチの開発について述べるとともに,着目しない記述に対して衣装コアを予測する可能性を示す。
トレーニングに使用するために、より多くの衣服記述がいまだにキュレートされているため、より高い精度で一般化が期待できる。
関連論文リスト
- Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - Don't lose the message while paraphrasing: A study on content preserving
style transfer [61.38460184163704]
スタイル伝達研究の現実的な応用には,コンテンツ保存が不可欠である。
形式性伝達領域の例において、様々なスタイル転送モデルを比較する。
我々は,スタイル伝達のための最先端技術について,精密な比較研究を行っている。
論文 参考訳(メタデータ) (2023-08-17T15:41:08Z) - Transfer Learning across Several Centuries: Machine and Historian
Integrated Method to Decipher Royal Secretary's Diary [1.105375732595832]
歴史的テキストにおけるNERは、注釈付きコーパスの不足、多言語多様さ、様々なノイズ、現代の言語モデルとは全く異なる慣習といった課題に直面している。
本稿では,何世紀にもわたって記録された韓国の歴史的コーパス(SeungJeongWonと名づけられた王立書記官日記)を紹介する。
論文 参考訳(メタデータ) (2023-06-26T11:00:35Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - StoryTrans: Non-Parallel Story Author-Style Transfer with Discourse
Representations and Content Enhancing [73.81778485157234]
長文は通常、文よりも談話構造のような複雑な著者の言語的嗜好を含んでいる。
我々は、入力されたストーリーを特定の著者スタイルに転送する必要があるノン並列ストーリー作者スタイル転送のタスクを定式化する。
モデルが自動エンコーダに退化することを防ぐために,学習した談話表現からスタイル的特徴を引き離すための追加の学習目標を用いる。
論文 参考訳(メタデータ) (2022-08-29T08:47:49Z) - Word Order Does Matter (And Shuffled Language Models Know It) [9.990431777927421]
近年の研究では、ランダムに置換された文に対して事前訓練および/または微調整された言語モデルがGLUE上での競合性能を示すことが示されている。
シャッフルテキストエンコードから得られた位置埋め込みについて検討し、これらのモデルが元の自然主義的な単語順序に関する情報を保持することを示す。
論文 参考訳(メタデータ) (2022-03-21T14:10:15Z) - Predicting the Ordering of Characters in Japanese Historical Documents [6.82324732276004]
1900年(明治33年)の日本書記制度の変遷により、歴史文書は一般には入手できないものとなった。
キャラクタの逐次順序を予測するタスクに対するいくつかのアプローチについて検討する。
私たちのベストパフォーマンスシステムは98.65%の精度で、データセットの書籍の49%で完璧に正確です。
論文 参考訳(メタデータ) (2021-06-12T14:39:20Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。