論文の概要: FreeTxt-Vi: A Benchmarked Vietnamese-English Toolkit for Segmentation, Sentiment, and Summarisation
- arxiv url: http://arxiv.org/abs/2603.05690v1
- Date: Thu, 05 Mar 2026 21:26:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.500991
- Title: FreeTxt-Vi: A Benchmarked Vietnamese-English Toolkit for Segmentation, Sentiment, and Summarisation
- Title(参考訳): FreeTxt-Vi: セグメンテーション、センチメント、要約のためのベトナム英語のベンチマークツールキット
- Authors: Hung Nguyen Huy, Mo El-Haj, Dawn Knight, Paul Rayson,
- Abstract要約: FreeTxt-Viは、ベトナム語のバイリンガルなテキストコレクションを作成し分析するための、フリーでオープンソースのWebベースのツールキットである。
システムは、コーパス分析機能、例えばコンコーディネートキーワード分析語句関係探索と対話的視覚化と、感情分析と要約のためのトランスフォーマーベースのNLPコンポーネントを組み合わせる。
- 参考スコア(独自算出の注目度): 3.0712751539922394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: FreeTxt-Vi is a free and open source web based toolkit for creating and analysing bilingual Vietnamese English text collections. Positioned at the intersection of corpus linguistics and natural language processing NLP it enables users to build explore and interpret free text data without requiring programming expertise. The system combines corpus analysis features such as concordancing keyword analysis word relation exploration and interactive visualisation with transformer based NLP components for sentiment analysis and summarisation. A key contribution of this work is the design of a unified bilingual NLP pipeline that integrates a hybrid VnCoreNLP and Byte Pair Encoding BPE segmentation strategy a fine tuned TabularisAI sentiment classifier and a fine tuned Qwen2.5 model for abstractive summarisation. Unlike existing text analysis platforms FreeTxt Vi is evaluated as a set of language processing components. We conduct a three part evaluation covering segmentation sentiment analysis and summarisation and show that our approach achieves competitive or superior performance compared to widely used baselines in both Vietnamese and English. By reducing technical barriers to multilingual text analysis FreeTxt Vi supports reproducible research and promotes the development of language resources for Vietnamese a widely spoken but underrepresented language in NLP. The toolkit is applicable to domains including education digital humanities cultural heritage and the social sciences where qualitative text data are common but often difficult to process at scale.
- Abstract(参考訳): FreeTxt-Viは、ベトナム語のバイリンガルなテキストコレクションを作成し分析するための、フリーでオープンソースのWebベースのツールキットである。
コーパス言語学と自然言語処理NLPの交差点に位置しており、ユーザーはプログラミングの専門知識を必要とせずに自由なテキストデータを探索して解釈することができる。
本システムは,キーワード分析語句関係探索と対話的可視化などのコーパス解析機能と,感情分析と要約のためのトランスフォーマーベースNLPコンポーネントを併用する。
この研究の重要な貢献は、ハイブリッドなVnCoreNLPとByte Pair Encoding BPEセグメンテーション戦略を統合した統合バイリンガルNLPパイプラインの設計、微調整されたTabularisAI感情分類器、抽象的な要約のための微調整されたQwen2.5モデルである。
既存のテキスト分析プラットフォームとは異なり、FreeTxt Viは言語処理コンポーネントのセットとして評価されている。
セグメンテーション感情分析と要約を網羅した3部評価を行い,ベトナム語と英語の両方で広く使用されているベースラインと比較して,我々のアプローチが競争力や優れたパフォーマンスを達成することを示す。
多言語テキスト分析の技術的障壁を減らすことで、FreeTxt Viは再現可能な研究をサポートし、ベトナム語のための言語資源の開発を促進する。
このツールキットは、教育デジタル人文科学の文化的遺産や、定性的テキストデータが一般的だが大規模に扱うのが難しい社会科学などの分野に適用できる。
関連論文リスト
- PromotionGo at SemEval-2025 Task 11: A Feature-Centric Framework for Cross-Lingual Multi-Emotion Detection in Short Texts [1.210852962855694]
本稿では,SemEval 2025 Task 11: Bridging the Gap in Text-based Emotion Detectionについて述べる。
本稿では,文書表現と学習アルゴリズムを動的に適用し,言語固有の性能を最適化する機能中心フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-11T11:21:18Z) - ParsiPy: NLP Toolkit for Historical Persian Texts in Python [1.637832760977605]
この研究は、音声の書き起こしを処理し、古代のテキストを分析するためのNLPツールキットであるParsiPyを導入している。
ParsiPyは、トークン化、補題化、音声タグ付け、音素から音素への変換、単語の埋め込みのためのモジュールを提供する。
論文 参考訳(メタデータ) (2025-03-22T16:21:29Z) - Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues [56.038123093599815]
我々の目的は、連続手話から音声言語テキストへの翻訳である。
署名ビデオと追加のコンテキストキューを組み込む。
文脈的アプローチが翻訳の質を著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-01-16T18:59:03Z) - A study of Vietnamese readability assessing through semantic and statistical features [0.0]
本稿では,テキストの可読性を評価するための統計的および意味的アプローチを統合する新しいアプローチを提案する。
我々の研究はベトナムのテキスト可読性データセット(ViRead)、OneStop English、RASの3つの異なるデータセットを利用した。
SVM(Support Vector Machine)、ランダムフォレスト(Random Forest)、エクストラツリー(Extra Trees)など、さまざまな機械学習モデルを用いて実験を行った。
論文 参考訳(メタデータ) (2024-11-07T14:54:42Z) - LEVOS: Leveraging Vocabulary Overlap with Sanskrit to Generate Technical Lexicons in Indian Languages [39.08623113730563]
技術的用語の言語情報翻訳のためのサンスクリットに基づくセグメントの新規な利用法を提案する。
提案手法では,意味のあるサブワード単位の識別に文字レベルセグメンテーションを用いる。
我々はサンスクリットから派生したセグメントを用いた技術用語翻訳のための2つの実験的な設定における一貫した改善を観察する。
論文 参考訳(メタデータ) (2024-07-08T18:50:13Z) - X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs [55.80189506270598]
X-PARADEは、段落レベルの情報の分岐の最初の言語間データセットである。
アノテーションは、対象言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落に対して評価する。
アライメントされた段落は、異なる言語のウィキペディアページから引用される。
論文 参考訳(メタデータ) (2023-09-16T04:34:55Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - TextEssence: A Tool for Interactive Analysis of Semantic Shifts Between
Corpora [14.844685568451833]
TextEssenceは、埋め込みを用いたコーポラの比較分析を可能にするインタラクティブなシステムです。
TextEssenceには、軽量なWebベースのインターフェイスに、ビジュアル、隣り合わせ、および類似性ベースの組み込み分析モードが含まれています。
論文 参考訳(メタデータ) (2021-03-19T21:26:28Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。