論文の概要: San-BERT: Extractive Summarization for Sanskrit Documents using BERT and
it's variants
- arxiv url: http://arxiv.org/abs/2304.01894v1
- Date: Tue, 4 Apr 2023 15:47:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 13:21:24.442407
- Title: San-BERT: Extractive Summarization for Sanskrit Documents using BERT and
it's variants
- Title(参考訳): San-BERT: BERTと変種を用いたサンスクリット文書の抽出要約
- Authors: Kartik Bhatnagar, Sampath Lonka, Jammi Kunal and Mahabala Rao M G
- Abstract要約: 我々はサンスクリット語の言語モデル、すなわち変換器からの双方向表現(BERT)とその変種を開発する。
そして、これらのモデルから与えられたテキストの特徴を抽出した。
得られたサンスクリット文書の抽出要約を生成するため, 特徴量に対する次元還元法とクラスタリング法を適用した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we develop language models for the Sanskrit language, namely
Bidirectional Encoder Representations from Transformers (BERT) and its
variants: A Lite BERT (ALBERT), and Robustly Optimized BERT (RoBERTa) using
Devanagari Sanskrit text corpus. Then we extracted the features for the given
text from these models. We applied the dimensional reduction and clustering
techniques on the features to generate an extractive summary for a given
Sanskrit document. Along with the extractive text summarization techniques, we
have also created and released a Sanskrit Devanagari text corpus publicly.
- Abstract(参考訳): 本研究では,Devanagari Sanskrit テキストコーパスを用いた,サンスクリット語の言語モデルである Bidirectional Encoder Representations from Transformers (BERT) とその変種 A Lite BERT (ALBERT) と Robustly Optimized BERT (RoBERTa) を開発した。
そして、これらのモデルから与えられたテキストの特徴を抽出する。
我々は,sanskrit文書の抽出要約を生成するために,特徴量に対する次元縮小とクラスタリング手法を適用した。
抽出テキスト要約技術とともに,サンスクリット・デヴァナガリテキストコーパスを公開し,公開している。
関連論文リスト
- L3Cube-MahaSum: A Comprehensive Dataset and BART Models for Abstractive Text Summarization in Marathi [0.4194295877935868]
本稿では,マラタイにおける多種多様なニュース記事の大規模コレクションであるMahaSUMデータセットについて述べる。
データセットは、広範囲のオンラインニュースソースから記事を取り除き、抽象的な要約を手作業で検証することで作成されました。
我々は、MahaSUMデータセットを使用して、Indic言語用に調整されたBARTモデルの変種であるIndicBARTモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-10-11T18:37:37Z) - One Model is All You Need: ByT5-Sanskrit, a Unified Model for Sanskrit NLP Tasks [26.848664285007022]
ByT5-Sanskritは、形態的にリッチなサンスクリット言語を含むNLPアプリケーション向けに設計された。
外部の言語資源によってカバーされていないデータへのデプロイが容易で、より堅牢である。
提案手法は,他の形態学的にリッチな言語に対する補題化と依存関係解析のための新たなベストスコアが得られることを示す。
論文 参考訳(メタデータ) (2024-09-20T22:02:26Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Most Language Models can be Poets too: An AI Writing Assistant and
Constrained Text Generation Studio [0.5097809301149341]
ほとんどの言語モデルは、大きな制約の下でも魅力的なテキストを生成する。
本稿では,言語モデルの語彙にフィルタ関数を合成することにより,言語モデルの出力を変更する手法を提案する。
また,この技術であるGadsbyを紹介するHuggingfaceスペースWebアプリケーションについても紹介する。
論文 参考訳(メタデータ) (2023-06-28T05:10:51Z) - L3Cube-MahaSBERT and HindSBERT: Sentence BERT Models and Benchmarking
BERT Sentence Representations for Hindi and Marathi [0.7874708385247353]
この研究は、ヒンディー語とマラティ語という2つの低リソースのインドの言語に焦点を当てている。
機械翻訳を用いた合成NLIとSTSデータセットを用いて,これらの言語のための文-BERTモデルを訓練する。
我々は,NLI事前学習とSTSbファインチューニングの戦略が,ヒンディー語とマラタイ語の文類似性モデルの生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-11-21T05:15:48Z) - FBERT: A Neural Transformer for Identifying Offensive Content [67.12838911384024]
fBERTは、SOLIDで再訓練されたBERTモデルである。
複数の英文データセット上での攻撃的内容の同定におけるfBERTの性能を評価し、SOLIDからインスタンスを選択するためのしきい値をテストする。
fBERTモデルは、コミュニティで自由に利用できるようになる。
論文 参考訳(メタデータ) (2021-09-10T19:19:26Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Looking for Clues of Language in Multilingual BERT to Improve
Cross-lingual Generalization [56.87201892585477]
多言語BERT (m-BERT) には、言語情報と意味情報の両方が含まれている。
トークン埋め込みを操作することで多言語BERTの出力言語を制御する。
論文 参考訳(メタデータ) (2020-10-20T05:41:35Z) - It's not Greek to mBERT: Inducing Word-Level Translations from
Multilingual BERT [54.84185432755821]
mBERT (multilingual BERT) は、言語間での移動を可能にするリッチな言語間表現を学習する。
我々はmBERTに埋め込まれた単語レベルの翻訳情報について検討し、微調整なしで優れた翻訳能力を示す2つの簡単な方法を提案する。
論文 参考訳(メタデータ) (2020-10-16T09:49:32Z) - BERT Fine-tuning For Arabic Text Summarization [0.0]
我々のモデルは多言語BERTで動作する(アラビア語は独自の事前訓練されたBERTを持っていないため)。
本研究は、アラビア語コーパスに適用する前に、英語コーパスにおいて、抽出タスクと抽象タスクの両方でその性能を示す。
論文 参考訳(メタデータ) (2020-03-29T20:23:14Z) - TextBrewer: An Open-Source Knowledge Distillation Toolkit for Natural
Language Processing [64.87699383581885]
自然言語処理のためのオープンソースの知識蒸留ツールキットTextBrewerを紹介する。
テキスト分類、読解、シーケンスラベリングなどの教師あり学習タスクをサポートする。
ケーススタディでは、TextBrewerを使用して、いくつかの典型的なNLPタスクでBERTを蒸留する。
論文 参考訳(メタデータ) (2020-02-28T09:44:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。