Fugu-MT 論文翻訳(概要): DWUG: A large Resource of Diachronic Word Usage Graphs in Four Languages

論文の概要: DWUG: A large Resource of Diachronic Word Usage Graphs in Four Languages

arxiv url: http://arxiv.org/abs/2104.08540v1
Date: Sat, 17 Apr 2021 13:34:45 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-23 10:32:20.754844
Title: DWUG: A large Resource of Diachronic Word Usage Graphs in Four Languages
Title（参考訳）: dwug: 4つの言語におけるダイアクロニックな単語使用グラフの大きなリソース
Authors: Dominik Schlechtweg, Nina Tahmasebi, Simon Hengchen, Haim Dubossarsky, Barbara McGillivray
Abstract要約: そこで本研究では,4つの言語で意味するアノテーションを,文脈順化したダイアクロニック単語の最大リソースとして記述する。マルチラウンドのインクリメンタルなアノテーションプロセス、クラスタアルゴリズムによる使用方法をセンスにグループ化する選択、そしてこのデータセットに可能なdiachronicとsyncnicを詳細に記述します。
参考スコア（独自算出の注目度）: 8.303442508444153
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Word meaning is notoriously difficult to capture, both synchronically and diachronically. In this paper, we describe the creation of the largest resource of graded contextualized, diachronic word meaning annotation in four different languages, based on 100,000 human semantic proximity judgments. We thoroughly describe the multi-round incremental annotation process, the choice for a clustering algorithm to group usages into senses, and possible - diachronic and synchronic - uses for this dataset.
Abstract（参考訳）: 単語の意味は、同期的にも対数的にも、捕獲が難しいことで悪名高い。本稿では,10万の人間の意味的近さ判断に基づいて,4言語で意味するアノテーションを意味づける格付け付き文脈付きダイアクロニック単語の最大資源の作成について述べる。マルチラウンドのインクリメンタルなアノテーションプロセス、クラスタアルゴリズムによる使用方法をセンスにグループ化する選択、そしてこのデータセットに可能なdiachronicとsyncnicを詳細に記述します。

関連論文リスト

PICASO: Permutation-Invariant Context Composition with State Space Models [98.91198288025117]
State Space Models (SSM) は、コンテキストのデータベースを固定次元の状態にマッピング可能にすることで、有望なソリューションを提供する。本研究では,SSM力学から導かれる単純な数学的関係を,生のコンテキストトークンの連結効果を効率的に近似する複数の状態に構成する。我々は,WikiText と MSMARCO をゼロショットと微調整の両方で評価し,平均5.4倍のスピードアップを楽しみながら最強の演奏ベースラインと一致できることを示す。
論文参考訳（メタデータ） (2025-02-24T19:48:00Z)
Data-driven Coreference-based Ontology Building [48.995395445597225]
参照解決は、伝統的に個々の文書理解のコンポーネントとして使用される。よりグローバルな視点で、すべてのドキュメントレベルのコア参照関係から、ドメインについて何が学べるかを探求します。コードとともに、クリエイティブ・コモンズライセンスの下でコア参照チェーンをリリースします。
論文参考訳（メタデータ） (2024-10-22T14:30:40Z)
MSNER: A Multilingual Speech Dataset for Named Entity Recognition [34.88608417778945]
名前付きエンティティを付加した多言語音声コーパスであるMSNERを紹介する。これは4つの言語でVoxPopuliデータセットにアノテーションを提供する。その結果、トレーニングと検証のために590時間15時間の銀の注釈付きスピーチと、17時間手動の注釈付き評価セットが得られた。
論文参考訳（メタデータ） (2024-05-19T11:17:00Z)
Enriching Word Usage Graphs with Cluster Definitions [5.3135532294740475]
本稿では,複数の言語に対する既存のWUGを,意味定義として機能するクラスタラベルに富んだ単語使用グラフ(WUG)のデータセットを提案する。それらは、微調整エンコーダ-デコーダ言語モデルによってスクラッチから生成される。人体評価の結果、これらの定義はWordNetから選択した定義よりもWUGの既存のクラスタとよく一致していることがわかった。
論文参考訳（メタデータ） (2024-03-26T18:22:05Z)
A Comprehensive Empirical Evaluation of Existing Word Embedding Approaches [5.065947993017158]
既存の単語埋め込み手法の特徴を概説し,多くの分類タスクについて解析する。伝統的なアプローチでは、主に単語表現を生成するために行列分解を使い、言語の意味的および構文的規則性をうまく捉えることができない。一方、ニューラルネットワークに基づくアプローチは、言語の洗練された規則性を捕捉し、生成した単語表現における単語関係を保存することができる。
論文参考訳（メタデータ） (2023-03-13T15:34:19Z)
Information Retrieval in long documents: Word clustering approach for improving Semantics [0.0]
本稿では,長い文書の場合のセマンティック情報検索のためのディープニューラルネットワークの代替案を提案する。クラスタリング技術を活用したこの新しいアプローチは、長文と短文を対象とする情報検索システムにおける単語の意味を考慮に入れている。
論文参考訳（メタデータ） (2023-02-20T18:32:57Z)
Beyond Contrastive Learning: A Variational Generative Model for Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。我々のモデルは、$N$言語で並列データを操作する。本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文参考訳（メタデータ） (2022-12-21T02:41:40Z)
Monolingual alignment of word senses and definitions in lexicographical resources [0.0]
この論文の焦点は、辞書、特に辞書のアライメントである。最初の課題は、2つの異なる単言語辞書における見出しの感覚定義を考慮し、最適なアライメントを見つけることである。このベンチマークは、単語センスアライメントシステムの評価に使用することができる。
論文参考訳（メタデータ） (2022-09-06T13:09:52Z)
DAMO-NLP at SemEval-2022 Task 11: A Knowledge-based System for Multilingual Named Entity Recognition [94.1865071914727]
MultiCoNERは、複数の言語に対する短文と低文設定で意味的に曖昧な名前のエンティティを検出することを目的としている。我々のチームDAMO-NLPは知識に基づくシステムを提案し、ウィキペディアに基づく多言語知識ベースを構築する。入力文が与えられた場合,本システムは知識ベースから関連コンテキストを効果的に検索する。我々のシステムはMultiCoNER共有タスクで13トラック中10トラックを獲得した。
論文参考訳（メタデータ） (2022-03-01T15:29:35Z)
Multi-Modal Interaction Graph Convolutional Network for Temporal Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文参考訳（メタデータ） (2021-10-12T14:59:25Z)
Target Word Masking for Location Metonymy Resolution [23.91040558227375]
本稿では、タグや地名の辞典、その他の外部リソースに依存しない、BERTに基づくエンドツーエンドの単語レベル分類手法を提案する。提案手法は,従来のBERTモデルやベンチマークを大きなマージンで上回り,5つのデータセットの最先端化を実現していることを示す。
論文参考訳（メタデータ） (2020-10-30T06:34:44Z)
XL-WiC: A Multilingual Benchmark for Evaluating Semantic Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文参考訳（メタデータ） (2020-10-13T15:32:00Z)
SST-BERT at SemEval-2020 Task 1: Semantic Shift Tracing by Clustering in BERT-based Embedding Spaces [63.17308641484404]
本稿では,異なる単語の意味の表現として,各単語の異なる事象のクラスタを特定することを提案する。得られたクラスタの分解は、自然に4つのターゲット言語において、各ターゲットワードごとの意味的シフトのレベルを定量化することができる。当社のアプローチは,提供されたすべてのSemEvalベースラインを抜いて,個別(言語毎)と全体の両方で良好に動作します。
論文参考訳（メタデータ） (2020-10-02T08:38:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。