Fugu-MT 論文翻訳(概要): TFW2V: An Enhanced Document Similarity Method for the Morphologically Rich Finnish Language

論文の概要: TFW2V: An Enhanced Document Similarity Method for the Morphologically Rich Finnish Language

arxiv url: http://arxiv.org/abs/2112.12489v1
Date: Thu, 23 Dec 2021 12:27:45 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-24 21:05:23.889972
Title: TFW2V: An Enhanced Document Similarity Method for the Morphologically Rich Finnish Language
Title（参考訳）: TFW2V: 形態的にリッチなフィンランド語の文書類似性向上手法
Authors: Quan Duong, Mika H\"am\"al\"ainen, Khalid Alnajjar
Abstract要約: 本研究は,形態学的に豊かな言語であるフィンランド語に対する現在のアプローチの実験に焦点をあてる。本稿では,長文文書と限られた量のデータの両方を扱う上で,高い効率性を示す簡易な方法TFW2Vを提案する。
参考スコア（独自算出の注目度）: 0.5801044612920816
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Measuring the semantic similarity of different texts has many important applications in Digital Humanities research such as information retrieval, document clustering and text summarization. The performance of different methods depends on the length of the text, the domain and the language. This study focuses on experimenting with some of the current approaches to Finnish, which is a morphologically rich language. At the same time, we propose a simple method, TFW2V, which shows high efficiency in handling both long text documents and limited amounts of data. Furthermore, we design an objective evaluation method which can be used as a framework for benchmarking text similarity approaches.
Abstract（参考訳）: 異なるテキストの意味的類似性を測定することは、情報検索、文書クラスタリング、テキスト要約などのデジタル人文科学研究において重要な応用となっている。異なるメソッドのパフォーマンスは、テキストの長さ、ドメイン、言語に依存します。本研究は,形態学的に豊かな言語であるフィンランド語に対する現在のアプローチの実験に焦点をあてる。同時に、長いテキスト文書と限られた量のデータの両方を扱う上で高い効率性を示す簡易な方法TFW2Vを提案する。さらに,テキスト類似性をベンチマークするためのフレームワークとして利用できる客観的評価手法を設計する。

関連論文リスト

Skeletons Matter: Dynamic Data Augmentation for Text-to-Query [66.52311036179294]
テキスト・ツー・クエリー・タスク・パラダイムを正式に定義し、様々なクエリー言語にまたがるセマンティック・パース・タスクを統一する。問合せスケルトンをText-to-Queryタスクの共有最適化ターゲットとして同定し、一般的な動的データ拡張フレームワークを提案する。 4つのText-to-Queryベンチマーク実験により,本手法が最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2025-11-24T09:39:03Z)
DISRetrieval: Harnessing Discourse Structure for Long Document Retrieval [51.89673002051528]
DISRetrievalは、言語談話構造を利用して長い文書理解を強化する新しい階層的検索フレームワークである。本研究は,談話構造が文書の長さや問合せの種類によって検索効率を著しく向上することを確認する。
論文参考訳（メタデータ） (2025-05-26T14:45:12Z)
Semantic Correspondence: Unified Benchmarking and a Strong Baseline [14.012377730820342]
本研究は,意味対応手法の大規模調査である。我々は、様々なベンチマークの文献におけるメソッドの結果を統合比較表に集約し、要約する。複数のベンチマークで最先端のパフォーマンスを実現するための,シンプルで効果的なベースラインを提案する。
論文参考訳（メタデータ） (2025-05-23T16:07:16Z)
A study of Vietnamese readability assessing through semantic and statistical features [0.0]
本稿では,テキストの可読性を評価するための統計的および意味的アプローチを統合する新しいアプローチを提案する。我々の研究はベトナムのテキスト可読性データセット(ViRead)、OneStop English、RASの3つの異なるデータセットを利用した。 SVM(Support Vector Machine)、ランダムフォレスト(Random Forest)、エクストラツリー(Extra Trees)など、さまざまな機械学習モデルを用いて実験を行った。
論文参考訳（メタデータ） (2024-11-07T14:54:42Z)
Multi-Dimensional Evaluation of Text Summarization with In-Context Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文参考訳（メタデータ） (2023-06-01T23:27:49Z)
Uzbek text summarization based on TF-IDF [0.0]
本稿では,ウズベク語における要約課題について実験する。この手法はTF-IDFアルゴリズムに基づくテキスト抽象化に基づいている。テキスト全体の重要な部分にn-gram法を適用することで、与えられたテキストを要約する。
論文参考訳（メタデータ） (2023-03-01T12:39:46Z)
Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文参考訳（メタデータ） (2023-01-22T18:22:55Z)
Beyond Contrastive Learning: A Variational Generative Model for Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。我々のモデルは、$N$言語で並列データを操作する。本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文参考訳（メタデータ） (2022-12-21T02:41:40Z)
TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文参考訳（メタデータ） (2022-07-14T08:52:07Z)
Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。単言語,多言語,言語横断の3種類の実験を行った。本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文参考訳（メタデータ） (2022-04-19T16:23:07Z)
Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文参考訳（メタデータ） (2021-09-02T16:05:24Z)
A Topological Method for Comparing Document Semantics [0.0]
2つの文書間の意味的類似性を比較するための新しいアルゴリズムを提案する。私たちの実験は、人間の判定結果を含む文書データセット上で行われます。提案アルゴリズムは,NLTKとの結びつきはあるものの,人間の一貫性の高い結果が得られるとともに,ほとんどの最先端の手法に勝る。
論文参考訳（メタデータ） (2020-12-08T04:21:40Z)
Method of the coherence evaluation of Ukrainian text [0.0]
ウクライナ語のテキストコヒーレンス測定法について分析した。訓練と試験はウクライナのテキストのコーパスで行われている。テキストコヒーレンス評価のための2つの典型的なタスクを実行することで、テスト手順を実行する。
論文参考訳（メタデータ） (2020-10-31T16:48:55Z)
MultiGBS: A multi-layer graph approach to biomedical summarization [6.11737116137921]
本稿では,文書を多層グラフとしてモデル化し,テキストの複数の特徴を同時に処理可能にするドメイン固有手法を提案する。教師なしの手法では,MultiRankアルゴリズムと概念数に基づいて,多層グラフから文を選択する。提案するMultiGBSアルゴリズムはUMLSを採用し,SemRepやMetaMap,OGERといったさまざまなツールを用いて概念と関係を抽出する。
論文参考訳（メタデータ） (2020-08-27T04:22:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。