論文の概要: Analysis of the quotation corpus of the Russian Wiktionary
- arxiv url: http://arxiv.org/abs/2002.00734v1
- Date: Mon, 20 Jan 2020 12:30:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 05:30:49.195855
- Title: Analysis of the quotation corpus of the Russian Wiktionary
- Title(参考訳): ロシアwiktionaryの引用コーパスの解析
- Authors: A. Smirnov, T. Levashova, A. Karpov, I. Kipyatkova, A. Ronzhin, A.
Krizhanovsky, N. Krizhanovsky
- Abstract要約: ロシアのウィキオンリーにおける引用の定量的評価は、開発されたウィキオンリーを用いて行われた。
辞書の引用数は急速に増えている(2011年51.5万、2012年62万)
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The quantitative evaluation of quotations in the Russian Wiktionary was
performed using the developed Wiktionary parser. It was found that the number
of quotations in the dictionary is growing fast (51.5 thousands in 2011, 62
thousands in 2012). These quotations were extracted and saved in the relational
database of a machine-readable dictionary. For this database, tables related to
the quotations were designed. A histogram of distribution of quotations of
literary works written in different years was built. It was made an attempt to
explain the characteristics of the histogram by associating it with the years
of the most popular and cited (in the Russian Wiktionary) writers of the
nineteenth century. It was found that more than one-third of all the quotations
(the example sentences) contained in the Russian Wiktionary are taken by the
editors of a Wiktionary entry from the Russian National Corpus.
- Abstract(参考訳): 開発したWiktionary parserを用いて,ロシアのWiktionaryにおける引用の定量的評価を行った。
辞書の引用数が急速に増えていることが判明した(2011年には51.5万、2012年には62万)。
これらの引用を抽出し、機械可読辞書のリレーショナルデータベースに保存する。
このデータベースでは、引用に関連するテーブルが設計された。
異なる年に書かれた文学作品の引用の分布のヒストグラムが製作された。
これは、ヒストグラムの特徴を19世紀の最も人気があり、引用された(ロシアのウィクチュアリで)作家の年代と結びつけて説明しようとしたものである。
ロシアのウィクティタリーに含まれる引用(例文)の3分の1以上は、ロシア国立コーパスから引用されたウィクティタリーの編集者によって取られていることが判明した。
関連論文リスト
- Bridging Dictionary: AI-Generated Dictionary of Partisan Language Use [21.15400893251543]
Bridging Dictionaryは、異なる政治的見解を持つ人々によって、言葉がどのように認識されているかを示すインタラクティブなツールである。
Bridging Dictionaryには、静的で印刷可能なドキュメントが含まれており、大きな言語モデルによって生成された要約を含む796の用語がある。
ユーザーは選択した単語を探索し、その頻度、感情、要約、政治的分裂の例を視覚化することができる。
論文 参考訳(メタデータ) (2024-07-12T19:44:40Z) - Homonym Sense Disambiguation in the Georgian Language [49.1574468325115]
本研究は,ジョージア語における単語センス曖昧化(WSD)課題に対する新しいアプローチを提案する。
これは、ジョージアのCommon Crawls corpusをフィルタリングすることによって形成されたデータセットに基づいて、事前訓練されたLarge Language Model(LLM)の教師付き微調整に基づいている。
論文 参考訳(メタデータ) (2024-04-24T21:48:43Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - Computational valency lexica and Homeric formularity [1.6346069386394704]
我々は、古代ギリシアの依存木バンクから自動的に抽出された古代ギリシアの辞書 AGVaLex を提示する。
それは、動詞とその議論に関する量的コーパス駆動型形態学、構文的、語彙的情報を含んでいる。
古代ギリシアの著者の言語研究に広く応用されている。
論文 参考訳(メタデータ) (2022-08-23T08:03:16Z) - LitMind Dictionary: An Open-Source Online Dictionary [5.2221935174520056]
本稿では,オープンソースのオンライン生成辞書LitMind Dictionaryを紹介する。
単語を含む単語とコンテキストを入力として取り、自動的に定義を出力として生成する。
中国語と英語だけでなく、中国語と英語の言語間のクエリもサポートしている。
論文 参考訳(メタデータ) (2022-04-23T15:10:40Z) - The Project Dialogism Novel Corpus: A Dataset for Quotation Attribution
in Literary Texts [9.621600317647369]
プロジェクト・ダイアロジズム・ノベル・コーパス(英: Project Dialogism Novel Corpus、PDNC)は、英語の文学文の引用の注釈付きデータセットである。
PDNCには、22の長編小説の35,978の引用の注釈が含まれている。
論文 参考訳(メタデータ) (2022-04-12T14:23:55Z) - Investigating Cross-Linguistic Adjective Ordering Tendencies with a
Latent-Variable Model [66.84264870118723]
本稿では,多言語形容詞順序付けを潜在変数モデルとして,初めて純粋コーパス駆動モデルを提案する。
我々は普遍的、言語横断的、階層的形容詞順序付け傾向の存在の強い確固たる証拠を提供する。
論文 参考訳(メタデータ) (2020-10-09T18:27:55Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - The Grievance Dictionary: Understanding Threatening Language Use [0.8373151777137792]
グリーバンス辞典は、グリーヴァンスに満ちた暴力の脅威評価の文脈で言語の使用を自動的に理解するために使用することができる。
この辞書は暴力的で非暴力的な個人によって書かれたテキストに適用することで検証された。
論文 参考訳(メタデータ) (2020-09-10T12:06:48Z) - RUSSE'2020: Findings of the First Taxonomy Enrichment Task for the
Russian language [70.27072729280528]
本稿では,ロシア語の分類学的豊か化に関する最初の共有課題の結果について述べる。
16チームがこのタスクに参加し、半数以上が提供されたベースラインを上回った。
論文 参考訳(メタデータ) (2020-05-22T13:30:37Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。