論文の概要: Processing M.A. Castr\'en's Materials: Multilingual Typed and
Handwritten Manuscripts
- arxiv url: http://arxiv.org/abs/2112.14153v1
- Date: Tue, 28 Dec 2021 14:19:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-31 03:31:57.119805
- Title: Processing M.A. Castr\'en's Materials: Multilingual Typed and
Handwritten Manuscripts
- Title(参考訳): m.a.castr\'enの資料の処理:多言語型と手書きの写本
- Authors: Niko Partanen, Jack Rueter, Mika H\"am\"al\"ainen, Khalid Alnajjar
- Abstract要約: この研究は、フィンランドの民族学者で言語学者のマティアス・アレクサンドル・カスターン(1813年−1852年)が収集し、出版した様々な課題に関する技術的報告を形成する。
使用するアーカイブと技術的インフラストラクチャについて議論し、異なる計算タスクに有用なデータセットをどのように作成するかを検討する。
これらのデータセットのほとんどは、Zenodoで公開されています。
- 参考スコア(独自算出の注目度): 1.0896567381206714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The study forms a technical report of various tasks that have been performed
on the materials collected and published by Finnish ethnographer and linguist,
Matthias Alexander Castr\'en (1813-1852). The Finno-Ugrian Society is
publishing Castr\'en's manuscripts as new critical and digital editions, and at
the same time different research groups have also paid attention to these
materials. We discuss the workflows and technical infrastructure used, and
consider how datasets that benefit different computational tasks could be
created to further improve the usability of these materials, and also to aid
the further processing of similar archived collections. We specifically focus
on the parts of the collections that are processed in a way that improves their
usability in more technical applications, complementing the earlier work on the
cultural and linguistic aspects of these materials. Most of these datasets are
openly available in Zenodo. The study points to specific areas where further
research is needed, and provides benchmarks for text recognition tasks.
- Abstract(参考訳): この研究は、フィンランドの民族学者で言語学者のmatthias alexander castr\'en (1813-1852) が収集し出版した資料に基づいて行われた様々なタスクに関する技術報告である。
フィンノ・ウグリア協会はカスターの写本を新たな批判版とデジタル版として出版しており、同時に異なる研究グループがこれらの資料に注意を払っている。
使用するワークフローと技術基盤について論じ、異なる計算タスクの恩恵を受けるデータセットをどのように作成するかを検討し、これらの材料の使用性をさらに向上するとともに、類似したアーカイブコレクションのさらなる処理を支援する。
具体的には,これらの資料の文化的・言語的側面に関する以前の研究を補完して,より技術的な応用におけるユーザビリティを向上させる方法で処理されるコレクションの一部に焦点を当てる。
これらのデータセットのほとんどがzenodoで公開されている。
この研究は、さらなる研究が必要な特定の分野を指し、テキスト認識タスクのベンチマークを提供する。
関連論文リスト
- A Library Perspective on Supervised Text Processing in Digital Libraries: An Investigation in the Biomedical Domain [3.9519587827662397]
本研究では,8つのバイオメディカルベンチマークを用いて,関係抽出とテキスト分類に焦点を当てた。
精度とアプリケーションコストのトレードオフを検討し、遠隔監視とChatGPT、LLama、Olmoといった大規模言語モデルを通じてデータ生成のトレーニングを行い、最終パイプラインの設計方法について論じる。
論文 参考訳(メタデータ) (2024-11-06T07:54:10Z) - A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - CREATIVESUMM: Shared Task on Automatic Summarization for Creative
Writing [90.58269243992318]
本稿では,複数の創作分野,すなわち文学テキスト,映画脚本,テレビ脚本を要約する作業について紹介する。
4つのサブタスクとその対応するデータセットを導入し、本、映画脚本、プライムタイムテレビ脚本、昼間のソープオペラ脚本の要約に焦点を当てた。
COING 2022でのCREATIVESUMMワークショップの一環として、共有タスクには合計18の応募が寄せられた。
論文 参考訳(メタデータ) (2022-11-10T21:31:03Z) - Digital Editions as Distant Supervision for Layout Analysis of Printed
Books [76.29918490722902]
本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。
DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。
自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
論文 参考訳(メタデータ) (2021-12-23T16:51:53Z) - Latin writing styles analysis with Machine Learning: New approach to old
questions [0.0]
中世のテキストは、世代から世代までのコミュニケーション手段を用いて、心から学び、普及した。
ラテン語で書かれた文学の特定の構成を考慮に入れれば、特定の物語テキストの親しみやすい情報源の確率パターンを探索し、示すことができる。
論文 参考訳(メタデータ) (2021-09-01T20:21:45Z) - Deep Learning for Text Style Transfer: A Survey [71.8870854396927]
テキストスタイル転送は、生成したテキストの特定の属性を制御することを目的として、自然言語生成において重要なタスクである。
2017年の最初のニューラルテキストスタイル転送作業以降,100以上の代表的な記事を対象とした,ニューラルテキストスタイル転送の研究の体系的な調査を行う。
タスクの定式化、既存のデータセットとサブタスク、評価、並列データと非並列データの存在下での豊富な方法論について論じる。
論文 参考訳(メタデータ) (2020-11-01T04:04:43Z) - Positioning yourself in the maze of Neural Text Generation: A
Task-Agnostic Survey [54.34370423151014]
本稿では, ストーリーテリング, 要約, 翻訳など, 世代ごとのタスクインパクトをリレーする手法の構成要素について検討する。
本稿では,学習パラダイム,事前学習,モデリングアプローチ,復号化,各分野における重要な課題について,命令的手法の抽象化を提案する。
論文 参考訳(メタデータ) (2020-10-14T17:54:42Z) - Low resource language dataset creation, curation and classification:
Setswana and Sepedi -- Extended Abstract [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
分類のためのベースラインを提案し,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-03-30T18:03:15Z) - Historical Document Processing: Historical Document Processing: A Survey
of Techniques, Tools, and Trends [0.0]
歴史文書処理は、歴史学者や他の学者が将来使用するために、過去に書かれた資料をデジタル化する過程である。
コンピュータビジョン、文書分析と認識、自然言語処理、機械学習など、コンピュータ科学の様々なサブフィールドからアルゴリズムやソフトウェアツールが組み込まれている。
論文 参考訳(メタデータ) (2020-02-15T01:54:35Z) - Two Huge Title and Keyword Generation Corpora of Research Articles [0.0]
本稿では,テキスト要約(OAGSX)とキーワード生成(OAGKX)の2つの巨大なデータセットを紹介する。
データは、研究プロファイルと出版物のネットワークであるOpen Academic Graphから取得された。
より具体的な分野から研究論文のサブセットを導出するために、この2つの集合にトピックモデリングを適用したい。
論文 参考訳(メタデータ) (2020-02-11T21:17:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。