論文の概要: Kratt: Developing an Automatic Subject Indexing Tool for The National
Library of Estonia
- arxiv url: http://arxiv.org/abs/2203.12998v1
- Date: Thu, 24 Mar 2022 11:45:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 13:53:47.145389
- Title: Kratt: Developing an Automatic Subject Indexing Tool for The National
Library of Estonia
- Title(参考訳): Kratt: エストニア国立図書館のための自動主題索引作成ツールの開発
- Authors: Marit Asula, Jane Makke, Linda Freienthal, Hele-Andra Kuulmets and
Raul Sirel
- Abstract要約: Krattは自動被写体インデックスツールのプロトタイプである。
クラットは本を索引づけするのに約1分かかり、人間を10~15回上回ります。
モデルをトレーニングし、より注意深い前処理技術を適用するためのより大きなコーパスを含めることで、結果を向上することができる。
- 参考スコア(独自算出の注目度): 0.01810277789712035
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Manual subject indexing in libraries is a time-consuming and costly process
and the quality of the assigned subjects is affected by the cataloguer's
knowledge on the specific topics contained in the book. Trying to solve these
issues, we exploited the opportunities arising from artificial intelligence to
develop Kratt: a prototype of an automatic subject indexing tool. Kratt is able
to subject index a book independent of its extent and genre with a set of
keywords present in the Estonian Subject Thesaurus. It takes Kratt
approximately 1 minute to subject index a book, outperforming humans 10-15
times. Although the resulting keywords were not considered satisfactory by the
cataloguers, the ratings of a small sample of regular library users showed more
promise. We also argue that the results can be enhanced by including a bigger
corpus for training the model and applying more careful preprocessing
techniques.
- Abstract(参考訳): 図書館におけるマニュアル・インデクシングは時間と費用のかかるプロセスであり、その本に含まれる特定のトピックに関するカタログ作成者の知識に影響される。
これらの問題を解決するために、人工知能がもたらす機会を利用して、自動主題インデックスツールのプロトタイプであるKrattを開発した。
クラットはその範囲とジャンルによらず、エストニアの主題 Thesaurus に一連のキーワードで索引を付けることができる。
クラットは書籍の索引付けに約1分かかり、人間を10~15回上回った。
結果として得られたキーワードはカタログ作成者にとって満足のいくものではなかったが、少数の正規図書館利用者による評価はより有望であった。
また,モデル学習のためのコーパスを大型化し,より注意深い前処理手法を適用することで,結果が向上できると主張する。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Analysing the Impact of Removing Infrequent Words on Topic Quality in
LDA Models [0.0]
本稿では,低頻度単語の除去が,遅延ディリクレ割当を用いて推定したトピックの品質に与える影響について検討する。
その結果, 刈り取りは有益であり, 取り除かれる可能性のある語彙のシェアは極めて大きいことが示唆された。
論文 参考訳(メタデータ) (2023-11-24T14:20:12Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Extending an Event-type Ontology: Adding Verbs and Classes Using
Fine-tuned LLMs Suggestions [0.0]
語彙拡張タスクに先進的な機械学習手法を用いて事前アノテートしたデータについて検討した。
自動スコアと人間のアノテーションの相関について検討した。
相関性は強いが, アノテーションの固有性に対する影響は, ほぼ線形性から緩やかである。
論文 参考訳(メタデータ) (2023-06-03T14:57:47Z) - Sentiment Progression based Searching and Indexing of Literary Textual
Artefacts [0.0]
本稿では,本を検索・推薦するためのセンチメント・プログレクションに基づく索引付けを提案する。
1076の英語タイトル+20のマラティー語タイトルのデータベースを作成し、データベース http://www.cs.cmu.edu/dbamman/booksummaries.html に16559のタイトルとそれらの要約を追加した。
論文 参考訳(メタデータ) (2021-06-16T20:49:51Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Automatically Ranked Russian Paraphrase Corpus for Text Generation [0.0]
この記事は、ロシア語のパラフレーズ生成のための大規模なコーパスの自動開発とランキングに焦点を当てている。
既存のロシア語の注釈付きパラフレーズデータセットは、小型のParaPhraser corpusとParaPlagに限られている。
論文 参考訳(メタデータ) (2020-06-17T08:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。