論文の概要: DocLangID: Improving Few-Shot Training to Identify the Language of
Historical Documents
- arxiv url: http://arxiv.org/abs/2305.02208v1
- Date: Wed, 3 May 2023 15:45:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 14:18:08.606724
- Title: DocLangID: Improving Few-Shot Training to Identify the Language of
Historical Documents
- Title(参考訳): doclangid: 歴史文書の言語識別のための少数ショットトレーニングの改善
- Authors: Furkan Simsek, Brian Pfitzmann, Hendrik Raetz, Jona Otholt, Haojin
Yang, Christoph Meinel
- Abstract要約: 言語識別とは、文書中の文章の言語を認識するタスクを指す。
本稿では,未ラベルの歴史的文書の言語を識別するための移動学習手法であるDocLangIDを提案する。
- 参考スコア(独自算出の注目度): 7.535751594024775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language identification describes the task of recognizing the language of
written text in documents. This information is crucial because it can be used
to support the analysis of a document's vocabulary and context. Supervised
learning methods in recent years have advanced the task of language
identification. However, these methods usually require large labeled datasets,
which often need to be included for various domains of images, such as
documents or scene images. In this work, we propose DocLangID, a transfer
learning approach to identify the language of unlabeled historical documents.
We achieve this by first leveraging labeled data from a different but related
domain of historical documents. Secondly, we implement a distance-based
few-shot learning approach to adapt a convolutional neural network to new
languages of the unlabeled dataset. By introducing small amounts of manually
labeled examples from the set of unlabeled images, our feature extractor
develops a better adaptability towards new and different data distributions of
historical documents. We show that such a model can be effectively fine-tuned
for the unlabeled set of images by only reusing the same few-shot examples. We
showcase our work across 10 languages that mostly use the Latin script. Our
experiments on historical documents demonstrate that our combined approach
improves the language identification performance, achieving 74% recognition
accuracy on the four unseen languages of the unlabeled dataset.
- Abstract(参考訳): 言語識別は文書中の文章の言語を認識するタスクを記述している。
この情報は、文書の語彙と文脈の分析を支援するために使用できるため、非常に重要である。
近年,教師付き学習手法が言語識別の課題を推し進めている。
しかし、これらの方法は通常、大きなラベル付きデータセットを必要とし、ドキュメントやシーンイメージなど、画像のさまざまな領域に含める必要がある。
本研究では,未ラベル歴史文書の言語を識別する伝達学習手法であるDocLangIDを提案する。
まず、異なるが関連する歴史的文書の領域からラベル付きデータを活用してこれを達成する。
第2に,畳み込みニューラルネットワークをラベルなしデータセットの新しい言語に適応させるために,距離ベースの少数ショット学習手法を実装した。
ラベルのない画像の集合から手作業でラベル付けされたサンプルを少量導入することにより、特徴抽出器は、歴史的文書の新しい異なるデータ分布への適応性を向上させる。
このようなモデルは、同じ少数ショットの例だけを再利用することで、ラベルのない画像集合に対して効果的に微調整可能であることを示す。
主にラテン文字を使用する10言語にわたる作業を紹介します。
過去の文献での実験では,組み合わせた手法によって言語識別性能が向上し,ラベルなしデータセットの4つの未確認言語に対して74%の認識精度が達成された。
関連論文リスト
- A Multi-Modal Multilingual Benchmark for Document Image Classification [21.7518357653137]
新たに作成した2つの多言語データセットWIKI-DOCと MultiEUR-DOCLEXを紹介する。
我々は、文書画像分類における未検証設定において、視覚的に豊富な文書理解や文書AIモデルについて研究する。
実験結果から,多言語間移動における多言語文書AIモデルの限界が示された。
論文 参考訳(メタデータ) (2023-10-25T04:35:06Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - CSSL-MHTR: Continual Self-Supervised Learning for Scalable Multi-script Handwritten Text Recognition [16.987008461171065]
我々は,手書き文字認識における破滅的な忘れの問題を軽減するために,連続的な自己指導型学習の可能性を探究する。
提案手法は,各タスクにアダプタと呼ばれる中間層を追加し,現在のタスクを学習しながら,前モデルからの知識を効率的に抽出する。
私たちは英語、イタリア語、ロシア語のスクリプトで最先端のパフォーマンスを達成しましたが、タスクごとにいくつかのパラメータしか追加していません。
論文 参考訳(メタデータ) (2023-03-16T14:27:45Z) - Pix2Struct: Screenshot Parsing as Pretraining for Visual Language
Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。
4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-07T06:42:06Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - Handwriting Classification for the Analysis of Art-Historical Documents [6.918282834668529]
We focus on the analysis of handwriting in scanned document from the art-historic Archive of the WPI。
視覚構造に基づいて抽出されたテキストの断片をラベル付けする手書き分類モデルを提案する。
論文 参考訳(メタデータ) (2020-11-04T13:06:46Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z) - Massively Multilingual Document Alignment with Cross-lingual
Sentence-Mover's Distance [8.395430195053061]
ドキュメントアライメントは、互いに同等のコンテンツや翻訳を持つ2つの異なる言語で文書のペアを特定することを目的としている。
言語間文の埋め込みを利用した教師なしスコアリング機能を開発し、異なる言語の文書間の意味的距離を計算する。
これらのセマンティック距離は、文書アライメントアルゴリズムを誘導して、低言語、中言語、高リソースの様々なペアで言語間ウェブ文書を適切にペアリングする。
論文 参考訳(メタデータ) (2020-01-31T05:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。