論文の概要: Style transfer and classification in hebrew news items
- arxiv url: http://arxiv.org/abs/2212.03019v1
- Date: Tue, 6 Dec 2022 14:47:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 15:37:17.406188
- Title: Style transfer and classification in hebrew news items
- Title(参考訳): ヘブライ語ニュースにおけるスタイル伝達と分類
- Authors: Nir Weingarten
- Abstract要約: ヘブライ語は形態学的な豊かな言語であり、そのモデリングは単純な言語よりも難しい。
トランスフォーマー(Transformers in general)やバート(Bert)のような最近の発展は、SOTAの結果に達するヘブライ語のモデルへの道を開いた。
オンラインアーカイブから収集したニュース記事に対して,スタイル転送,テキスト生成,分類を行う分野における最先端について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hebrew is a Morphological rich language, making its modeling harder than
simpler language. Recent developments such as Transformers in general and Bert
in particular opened a path for Hebrew models that reach SOTA results, not
falling short from other non-MRL languages. We explore the cutting edge in this
field performing style transfer, text generation and classification over news
articles collected from online archives. Furthermore, the news portals that
feed our collective consciousness are an interesting corpus to study, as their
analysis and tracing might reveal insights about our society and discourse.
- Abstract(参考訳): ヘブライ語は形態素豊かな言語であり、単純な言語よりもモデリングが難しい。
一般的なトランスフォーマーや特にbertのような最近の開発は、他の非mrl言語に及ばず、sota結果に達するヘブライのモデルへの道を開いた。
オンラインアーカイブから収集したニュース記事に対して,スタイル転送,テキスト生成,分類を行う分野における最先端について検討する。
さらに、我々の集団意識を養うニュースポータルは、分析と追跡によって私たちの社会や談話に関する洞察が明らかになる可能性があるため、研究にとって興味深いコーパスである。
関連論文リスト
- Training a Bilingual Language Model by Mapping Tokens onto a Shared
Character Space [2.9914612342004503]
我々は、ヘブライ語でアラビア文字の翻訳版を用いてバイリンガルアラビア語・ヘブライ語モデルを訓練する。
両言語に統一的なスクリプトを用いた言語モデルの性能を機械翻訳を用いて評価する。
論文 参考訳(メタデータ) (2024-02-25T11:26:39Z) - A Corpus for Sentence-level Subjectivity Detection on English News
Articles [52.58681161666199]
文レベルで主観性検出のための新しいコーパスを提案する。
我々は,タスクのための新しいアノテーションガイドラインを開発し,それらを英語で新しいコーパスの作成に適用する。
この新たなリソースは、英語および他の言語で主観性検出のためのモデルを開発するための道を開く。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Investigating Lexical Sharing in Multilingual Machine Translation for
Indian Languages [8.858671209228536]
ネパールのヒンディー語から英語への多言語機械翻訳における語彙共有について検討した。
文字の書き起こしが顕著な改善を与えていないことが分かりました。
分析の結果,オリジナルスクリプトでトレーニングした多言語MTモデルは,すでに多言語間の違いに対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2023-05-04T23:35:15Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - StoryTrans: Non-Parallel Story Author-Style Transfer with Discourse
Representations and Content Enhancing [73.81778485157234]
長文は通常、文よりも談話構造のような複雑な著者の言語的嗜好を含んでいる。
我々は、入力されたストーリーを特定の著者スタイルに転送する必要があるノン並列ストーリー作者スタイル転送のタスクを定式化する。
モデルが自動エンコーダに退化することを防ぐために,学習した談話表現からスタイル的特徴を引き離すための追加の学習目標を用いる。
論文 参考訳(メタデータ) (2022-08-29T08:47:49Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - It's not Greek to mBERT: Inducing Word-Level Translations from
Multilingual BERT [54.84185432755821]
mBERT (multilingual BERT) は、言語間での移動を可能にするリッチな言語間表現を学習する。
我々はmBERTに埋め込まれた単語レベルの翻訳情報について検討し、微調整なしで優れた翻訳能力を示す2つの簡単な方法を提案する。
論文 参考訳(メタデータ) (2020-10-16T09:49:32Z) - Anubhuti -- An annotated dataset for emotional analysis of Bengali short
stories [2.3424047967193826]
アヌブティはベンガルの短編小説の著者が表現した感情を分析するための最初の、そして最大のテキストコーパスである。
本稿では,データ収集手法,手作業によるアノテーション処理,そして結果として生じるハイアノテータ間の合意について説明する。
我々は、ベースライン機械学習と感情分類のためのディープラーニングモデルを用いて、データセットの性能を検証した。
論文 参考訳(メタデータ) (2020-10-06T22:33:58Z) - Batch Clustering for Multilingual News Streaming [0.0]
多種多様で非組織的な情報が大量にあるため、読み書きは困難またはほぼ不可能である。
記事はバッチ毎に処理し、モノリンガルなローカルトピックを探し、時間と言語にまたがってリンクします。
我々のシステムは、スペイン語とドイツ語のニュースのデータセットにモノリンガルな結果を与え、英語、スペイン語、ドイツ語のニュースにクロスリンガルな結果を与える。
論文 参考訳(メタデータ) (2020-04-17T08:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。