論文の概要: TFW2V: An Enhanced Document Similarity Method for the Morphologically
Rich Finnish Language
- arxiv url: http://arxiv.org/abs/2112.12489v1
- Date: Thu, 23 Dec 2021 12:27:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-24 21:05:23.889972
- Title: TFW2V: An Enhanced Document Similarity Method for the Morphologically
Rich Finnish Language
- Title(参考訳): TFW2V: 形態的にリッチなフィンランド語の文書類似性向上手法
- Authors: Quan Duong, Mika H\"am\"al\"ainen, Khalid Alnajjar
- Abstract要約: 本研究は,形態学的に豊かな言語であるフィンランド語に対する現在のアプローチの実験に焦点をあてる。
本稿では,長文文書と限られた量のデータの両方を扱う上で,高い効率性を示す簡易な方法TFW2Vを提案する。
- 参考スコア(独自算出の注目度): 0.5801044612920816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Measuring the semantic similarity of different texts has many important
applications in Digital Humanities research such as information retrieval,
document clustering and text summarization. The performance of different
methods depends on the length of the text, the domain and the language. This
study focuses on experimenting with some of the current approaches to Finnish,
which is a morphologically rich language. At the same time, we propose a simple
method, TFW2V, which shows high efficiency in handling both long text documents
and limited amounts of data. Furthermore, we design an objective evaluation
method which can be used as a framework for benchmarking text similarity
approaches.
- Abstract(参考訳): 異なるテキストの意味的類似性を測定することは、情報検索、文書クラスタリング、テキスト要約などのデジタル人文科学研究において重要な応用となっている。
異なるメソッドのパフォーマンスは、テキストの長さ、ドメイン、言語に依存します。
本研究は,形態学的に豊かな言語であるフィンランド語に対する現在のアプローチの実験に焦点をあてる。
同時に、長いテキスト文書と限られた量のデータの両方を扱う上で高い効率性を示す簡易な方法TFW2Vを提案する。
さらに,テキスト類似性をベンチマークするためのフレームワークとして利用できる客観的評価手法を設計する。
関連論文リスト
- Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - Uzbek text summarization based on TF-IDF [0.0]
本稿では,ウズベク語における要約課題について実験する。
この手法はTF-IDFアルゴリズムに基づくテキスト抽象化に基づいている。
テキスト全体の重要な部分にn-gram法を適用することで、与えられたテキストを要約する。
論文 参考訳(メタデータ) (2023-03-01T12:39:46Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - A Topological Method for Comparing Document Semantics [0.0]
2つの文書間の意味的類似性を比較するための新しいアルゴリズムを提案する。
私たちの実験は、人間の判定結果を含む文書データセット上で行われます。
提案アルゴリズムは,NLTKとの結びつきはあるものの,人間の一貫性の高い結果が得られるとともに,ほとんどの最先端の手法に勝る。
論文 参考訳(メタデータ) (2020-12-08T04:21:40Z) - Method of the coherence evaluation of Ukrainian text [0.0]
ウクライナ語のテキストコヒーレンス測定法について分析した。
訓練と試験はウクライナのテキストのコーパスで行われている。
テキストコヒーレンス評価のための2つの典型的なタスクを実行することで、テスト手順を実行する。
論文 参考訳(メタデータ) (2020-10-31T16:48:55Z) - MultiGBS: A multi-layer graph approach to biomedical summarization [6.11737116137921]
本稿では,文書を多層グラフとしてモデル化し,テキストの複数の特徴を同時に処理可能にするドメイン固有手法を提案する。
教師なしの手法では,MultiRankアルゴリズムと概念数に基づいて,多層グラフから文を選択する。
提案するMultiGBSアルゴリズムはUMLSを採用し,SemRepやMetaMap,OGERといったさまざまなツールを用いて概念と関係を抽出する。
論文 参考訳(メタデータ) (2020-08-27T04:22:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。