論文の概要: A big data approach towards sarcasm detection in Russian
- arxiv url: http://arxiv.org/abs/2306.00445v1
- Date: Thu, 1 Jun 2023 08:34:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 17:31:34.280636
- Title: A big data approach towards sarcasm detection in Russian
- Title(参考訳): ロシアにおけるSarcasm検出へのビッグデータアプローチ
- Authors: A.A. Gurin, T.M. Sadykov, T.A. Zhukov
- Abstract要約: 本稿では,ロシア語の屈折と自動テキスト合成のための決定論的アルゴリズムを提案する。
これらのアルゴリズムは、公開のWebサービスwww.passare.ruで実装されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a set of deterministic algorithms for Russian inflection and
automated text synthesis. These algorithms are implemented in a publicly
available web-service www.passare.ru. This service provides functions for
inflection of single words, word matching and synthesis of grammatically
correct Russian text. Selected code and datasets are available at
https://github.com/passare-ru/PassareFunctions/ Performance of the inflectional
functions has been tested against the annotated corpus of Russian language
OpenCorpora, compared with that of other solutions, and used for estimating the
morphological variability and complexity of different parts of speech in
Russian.
- Abstract(参考訳): 本稿では,ロシア語の屈折と自動テキスト合成のための決定論的アルゴリズムを提案する。
これらのアルゴリズムは公開のWebサービスwww.passare.ruで実装されている。
このサービスは、単一の単語のインフレクション、単語マッチング、文法的に正しいロシア語テキストの合成機能を提供する。
選択されたコードとデータセットは、ロシア語のopencorporaの注釈付きコーパスに対して、https://github.com/passare-ru/passarefunctions/ performance of the inflectional functionsでテストされ、ロシア語の異なる部分の形態的変化と複雑さを推定するために使用されている。
関連論文リスト
- How do different tokenizers perform on downstream tasks in scriptio
continua languages?: A case study in Japanese [4.259342268820457]
本稿では,単語間に明示的な空間が存在しないスクリプティカル連続言語において,トークン化剤が事前学習言語モデル(PLM)の下流性能に与える影響について検討する。
このような言語のトークン化子は、しばしば形態解析器とサブワードトークン化器から構成され、全ての可能なペアについて包括的な研究を行う必要がある。
我々は、幅広いトークンのセットを訓練し、それぞれを用いてPLMを構築し、幅広いタスクで下流のパフォーマンスを測定する。
論文 参考訳(メタデータ) (2023-06-16T01:22:32Z) - A Corpus for Sentence-level Subjectivity Detection on English News
Articles [52.58681161666199]
文レベルで主観性検出のための新しいコーパスを提案する。
我々は,タスクのための新しいアノテーションガイドラインを開発し,それらを英語で新しいコーパスの作成に適用する。
この新たなリソースは、英語および他の言語で主観性検出のためのモデルを開発するための道を開く。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Lexical Complexity Prediction: An Overview [13.224233182417636]
テキスト中の未知の単語の発生は、読書の理解を著しく妨げている。
計算モデリングは、テキスト中の複雑な単語を識別し、より単純な代替語に置き換えるために応用されている。
本稿では,英文データに基づく語彙複雑性予測に対する計算手法の概要について述べる。
論文 参考訳(メタデータ) (2023-03-08T19:35:08Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - RuDSI: graph-based word sense induction dataset for Russian [1.997704019887898]
RuDSIはロシア語で単語感覚誘導(WSI)のための新しいベンチマークである。
完全にデータ駆動であり、アノテータに外部語感覚を課すことはない。
論文 参考訳(メタデータ) (2022-09-28T00:08:24Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - More Romanian word embeddings from the RETEROM project [0.0]
単語埋め込み」は、単語のベクトル表現を自動的に学習する。
使用可能な単語埋め込みセットをオープンアクセス可能な大規模ライブラリを開発する計画である。
論文 参考訳(メタデータ) (2021-11-21T06:05:12Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - Automatically Ranked Russian Paraphrase Corpus for Text Generation [0.0]
この記事は、ロシア語のパラフレーズ生成のための大規模なコーパスの自動開発とランキングに焦点を当てている。
既存のロシア語の注釈付きパラフレーズデータセットは、小型のParaPhraser corpusとParaPlagに限られている。
論文 参考訳(メタデータ) (2020-06-17T08:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。