Fugu-MT 論文翻訳(概要): San-BERT: Extractive Summarization for Sanskrit Documents using BERT and it's variants

論文の概要: San-BERT: Extractive Summarization for Sanskrit Documents using BERT and it's variants

arxiv url: http://arxiv.org/abs/2304.01894v1
Date: Tue, 4 Apr 2023 15:47:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-05 13:21:24.442407
Title: San-BERT: Extractive Summarization for Sanskrit Documents using BERT and it's variants
Title（参考訳）: San-BERT: BERTと変種を用いたサンスクリット文書の抽出要約
Authors: Kartik Bhatnagar, Sampath Lonka, Jammi Kunal and Mahabala Rao M G
Abstract要約: 我々はサンスクリット語の言語モデル、すなわち変換器からの双方向表現(BERT)とその変種を開発する。そして、これらのモデルから与えられたテキストの特徴を抽出した。得られたサンスクリット文書の抽出要約を生成するため, 特徴量に対する次元還元法とクラスタリング法を適用した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we develop language models for the Sanskrit language, namely Bidirectional Encoder Representations from Transformers (BERT) and its variants: A Lite BERT (ALBERT), and Robustly Optimized BERT (RoBERTa) using Devanagari Sanskrit text corpus. Then we extracted the features for the given text from these models. We applied the dimensional reduction and clustering techniques on the features to generate an extractive summary for a given Sanskrit document. Along with the extractive text summarization techniques, we have also created and released a Sanskrit Devanagari text corpus publicly.
Abstract（参考訳）: 本研究では,Devanagari Sanskrit テキストコーパスを用いた,サンスクリット語の言語モデルである Bidirectional Encoder Representations from Transformers (BERT) とその変種 A Lite BERT (ALBERT) と Robustly Optimized BERT (RoBERTa) を開発した。そして、これらのモデルから与えられたテキストの特徴を抽出する。我々は,sanskrit文書の抽出要約を生成するために,特徴量に対する次元縮小とクラスタリング手法を適用した。抽出テキスト要約技術とともに,サンスクリット・デヴァナガリテキストコーパスを公開し,公開している。

関連論文リスト

Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究 LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文参考訳（メタデータ） (2025-02-17T18:59:02Z)
L3Cube-MahaSum: A Comprehensive Dataset and BART Models for Abstractive Text Summarization in Marathi [0.4194295877935868]
本稿では,マラタイにおける多種多様なニュース記事の大規模コレクションであるMahaSUMデータセットについて述べる。データセットは、広範囲のオンラインニュースソースから記事を取り除き、抽象的な要約を手作業で検証することで作成されました。我々は、MahaSUMデータセットを使用して、Indic言語用に調整されたBARTモデルの変種であるIndicBARTモデルをトレーニングする。
論文参考訳（メタデータ） (2024-10-11T18:37:37Z)
One Model is All You Need: ByT5-Sanskrit, a Unified Model for Sanskrit NLP Tasks [26.848664285007022]
ByT5-Sanskritは、形態的にリッチなサンスクリット言語を含むNLPアプリケーション向けに設計された。外部の言語資源によってカバーされていないデータへのデプロイが容易で、より堅牢である。提案手法は,他の形態学的にリッチな言語に対する補題化と依存関係解析のための新たなベストスコアが得られることを示す。
論文参考訳（メタデータ） (2024-09-20T22:02:26Z)
CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。 COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文参考訳（メタデータ） (2024-06-16T16:10:51Z)
Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2023-07-13T05:03:26Z)
Most Language Models can be Poets too: An AI Writing Assistant and Constrained Text Generation Studio [0.5097809301149341]
ほとんどの言語モデルは、大きな制約の下でも魅力的なテキストを生成する。本稿では,言語モデルの語彙にフィルタ関数を合成することにより,言語モデルの出力を変更する手法を提案する。また,この技術であるGadsbyを紹介するHuggingfaceスペースWebアプリケーションについても紹介する。
論文参考訳（メタデータ） (2023-06-28T05:10:51Z)
L3Cube-MahaSBERT and HindSBERT: Sentence BERT Models and Benchmarking BERT Sentence Representations for Hindi and Marathi [0.7874708385247353]
この研究は、ヒンディー語とマラティ語という2つの低リソースのインドの言語に焦点を当てている。機械翻訳を用いた合成NLIとSTSデータセットを用いて,これらの言語のための文-BERTモデルを訓練する。我々は,NLI事前学習とSTSbファインチューニングの戦略が,ヒンディー語とマラタイ語の文類似性モデルの生成に有効であることを示す。
論文参考訳（メタデータ） (2022-11-21T05:15:48Z)
FBERT: A Neural Transformer for Identifying Offensive Content [67.12838911384024]
fBERTは、SOLIDで再訓練されたBERTモデルである。複数の英文データセット上での攻撃的内容の同定におけるfBERTの性能を評価し、SOLIDからインスタンスを選択するためのしきい値をテストする。 fBERTモデルは、コミュニティで自由に利用できるようになる。
論文参考訳（メタデータ） (2021-09-10T19:19:26Z)
Learning Contextualised Cross-lingual Word Embeddings and Alignments for Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文参考訳（メタデータ） (2020-10-27T22:24:01Z)
Looking for Clues of Language in Multilingual BERT to Improve Cross-lingual Generalization [56.87201892585477]
多言語BERT (m-BERT) には、言語情報と意味情報の両方が含まれている。トークン埋め込みを操作することで多言語BERTの出力言語を制御する。
論文参考訳（メタデータ） (2020-10-20T05:41:35Z)
It's not Greek to mBERT: Inducing Word-Level Translations from Multilingual BERT [54.84185432755821]
mBERT (multilingual BERT) は、言語間での移動を可能にするリッチな言語間表現を学習する。我々はmBERTに埋め込まれた単語レベルの翻訳情報について検討し、微調整なしで優れた翻訳能力を示す2つの簡単な方法を提案する。
論文参考訳（メタデータ） (2020-10-16T09:49:32Z)
BERT Fine-tuning For Arabic Text Summarization [0.0]
我々のモデルは多言語BERTで動作する(アラビア語は独自の事前訓練されたBERTを持っていないため)。本研究は、アラビア語コーパスに適用する前に、英語コーパスにおいて、抽出タスクと抽象タスクの両方でその性能を示す。
論文参考訳（メタデータ） (2020-03-29T20:23:14Z)
TextBrewer: An Open-Source Knowledge Distillation Toolkit for Natural Language Processing [64.87699383581885]
自然言語処理のためのオープンソースの知識蒸留ツールキットTextBrewerを紹介する。テキスト分類、読解、シーケンスラベリングなどの教師あり学習タスクをサポートする。ケーススタディでは、TextBrewerを使用して、いくつかの典型的なNLPタスクでBERTを蒸留する。
論文参考訳（メタデータ） (2020-02-28T09:44:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。