論文の概要: Style transfer and classification in hebrew news items
- arxiv url: http://arxiv.org/abs/2212.03019v1
- Date: Tue, 6 Dec 2022 14:47:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 15:37:17.406188
- Title: Style transfer and classification in hebrew news items
- Title(参考訳): ヘブライ語ニュースにおけるスタイル伝達と分類
- Authors: Nir Weingarten
- Abstract要約: ヘブライ語は形態学的な豊かな言語であり、そのモデリングは単純な言語よりも難しい。
トランスフォーマー(Transformers in general)やバート(Bert)のような最近の発展は、SOTAの結果に達するヘブライ語のモデルへの道を開いた。
オンラインアーカイブから収集したニュース記事に対して,スタイル転送,テキスト生成,分類を行う分野における最先端について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hebrew is a Morphological rich language, making its modeling harder than
simpler language. Recent developments such as Transformers in general and Bert
in particular opened a path for Hebrew models that reach SOTA results, not
falling short from other non-MRL languages. We explore the cutting edge in this
field performing style transfer, text generation and classification over news
articles collected from online archives. Furthermore, the news portals that
feed our collective consciousness are an interesting corpus to study, as their
analysis and tracing might reveal insights about our society and discourse.
- Abstract(参考訳): ヘブライ語は形態素豊かな言語であり、単純な言語よりもモデリングが難しい。
一般的なトランスフォーマーや特にbertのような最近の開発は、他の非mrl言語に及ばず、sota結果に達するヘブライのモデルへの道を開いた。
オンラインアーカイブから収集したニュース記事に対して,スタイル転送,テキスト生成,分類を行う分野における最先端について検討する。
さらに、我々の集団意識を養うニュースポータルは、分析と追跡によって私たちの社会や談話に関する洞察が明らかになる可能性があるため、研究にとって興味深いコーパスである。
関連論文リスト
- Crafting Tomorrow's Headlines: Neural News Generation and Detection in English, Turkish, Hungarian, and Persian [9.267227655791443]
我々は、英語、トルコ語、ハンガリー語、ペルシア語という4つの言語でニューラルニュース検出のために設計されたベンチマークデータセットを紹介した。
このデータセットには、BloomZ、LLaMa-2、Mistral、Mixtral、GPT-4など、複数の多言語ジェネレータ(ゼロショットと微調整の両方)からの出力が含まれている。
本研究は,全言語を対象とした機械生成テキスト検出器の解釈性と頑健性を明らかにすることを目的とした検出結果を提案する。
論文 参考訳(メタデータ) (2024-08-20T10:45:36Z) - Training a Bilingual Language Model by Mapping Tokens onto a Shared
Character Space [2.9914612342004503]
我々は、ヘブライ語でアラビア文字の翻訳版を用いてバイリンガルアラビア語・ヘブライ語モデルを訓練する。
両言語に統一的なスクリプトを用いた言語モデルの性能を機械翻訳を用いて評価する。
論文 参考訳(メタデータ) (2024-02-25T11:26:39Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - StoryTrans: Non-Parallel Story Author-Style Transfer with Discourse
Representations and Content Enhancing [73.81778485157234]
長文は通常、文よりも談話構造のような複雑な著者の言語的嗜好を含んでいる。
我々は、入力されたストーリーを特定の著者スタイルに転送する必要があるノン並列ストーリー作者スタイル転送のタスクを定式化する。
モデルが自動エンコーダに退化することを防ぐために,学習した談話表現からスタイル的特徴を引き離すための追加の学習目標を用いる。
論文 参考訳(メタデータ) (2022-08-29T08:47:49Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - It's not Greek to mBERT: Inducing Word-Level Translations from
Multilingual BERT [54.84185432755821]
mBERT (multilingual BERT) は、言語間での移動を可能にするリッチな言語間表現を学習する。
我々はmBERTに埋め込まれた単語レベルの翻訳情報について検討し、微調整なしで優れた翻訳能力を示す2つの簡単な方法を提案する。
論文 参考訳(メタデータ) (2020-10-16T09:49:32Z) - Anubhuti -- An annotated dataset for emotional analysis of Bengali short
stories [2.3424047967193826]
アヌブティはベンガルの短編小説の著者が表現した感情を分析するための最初の、そして最大のテキストコーパスである。
本稿では,データ収集手法,手作業によるアノテーション処理,そして結果として生じるハイアノテータ間の合意について説明する。
我々は、ベースライン機械学習と感情分類のためのディープラーニングモデルを用いて、データセットの性能を検証した。
論文 参考訳(メタデータ) (2020-10-06T22:33:58Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Batch Clustering for Multilingual News Streaming [0.0]
多種多様で非組織的な情報が大量にあるため、読み書きは困難またはほぼ不可能である。
記事はバッチ毎に処理し、モノリンガルなローカルトピックを探し、時間と言語にまたがってリンクします。
我々のシステムは、スペイン語とドイツ語のニュースのデータセットにモノリンガルな結果を与え、英語、スペイン語、ドイツ語のニュースにクロスリンガルな結果を与える。
論文 参考訳(メタデータ) (2020-04-17T08:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。