論文の概要: SpaDeLeF: A Dataset for Hierarchical Classification of Lexical Functions
for Collocations in Spanish
- arxiv url: http://arxiv.org/abs/2311.04189v1
- Date: Tue, 7 Nov 2023 18:32:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 14:18:09.600928
- Title: SpaDeLeF: A Dataset for Hierarchical Classification of Lexical Functions
for Collocations in Spanish
- Title(参考訳): spadelef:スペイン語のコロケーションの語彙関数の階層分類のためのデータセット
- Authors: Yevhen Kostiuk, Grigori Sidorov, Olga Kolesnikova
- Abstract要約: スペイン語の動詞・名詞のコロケーションと文の出現頻度が最も高いデータセットを提示する。
各コロケーションは、階層分類タスクのクラスとして定義される37の語彙関数の1つに割り当てられる。
木構造にクラスを結合し,構造レベル毎に分類対象を導入する。
- 参考スコア(独自算出の注目度): 6.9454683800956705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In natural language processing (NLP), lexical function is a concept to
unambiguously represent semantic and syntactic features of words and phrases in
text first crafted in the Meaning-Text Theory. Hierarchical classification of
lexical functions involves organizing these features into a tree-like hierarchy
of categories or labels. This is a challenging task as it requires a good
understanding of the context and the relationships among words and phrases in
text. It also needs large amounts of labeled data to train language models
effectively. In this paper, we present a dataset of most frequent Spanish
verb-noun collocations and sentences where they occur, each collocation is
assigned to one of 37 lexical functions defined as classes for a hierarchical
classification task. Each class represents a relation between the noun and the
verb in a collocation involving their semantic and syntactic features. We
combine the classes in a tree-based structure, and introduce classification
objectives for each level of the structure. The dataset was created by
dependency tree parsing and matching of the phrases in Spanish news. We provide
baselines and data splits for each objective.
- Abstract(参考訳): 自然言語処理 (NLP) において、語彙関数 (lexical function) は、意味テキスト理論で最初に作られたテキストにおいて、単語やフレーズの意味的特徴と構文的特徴を曖昧に表現する概念である。
語彙関数の階層分類は、これらの特徴をカテゴリやラベルのツリーのような階層に分類する。
テキスト中の単語やフレーズ間の文脈や関係をよく理解する必要があるため、これは難しい作業である。
また、言語モデルを効果的に訓練するために大量のラベル付きデータも必要です。
本稿では,最も頻度の高いスペイン語動詞・名詞のコロケーションと文のデータセットを,階層的分類タスクのクラスとして定義された37の語彙関数の1つに割り当てる。
各クラスは、意味的および構文的特徴を含むコロケーションにおける名詞と動詞の関係を表す。
我々は,これらのクラスを木構造で結合し,各階層の分類目標を導入する。
データセットは、スペイン語ニュースの句の構文解析とマッチングによって作成された。
各目的に対してベースラインとデータ分割を提供します。
関連論文リスト
- Domain Embeddings for Generating Complex Descriptions of Concepts in
Italian Language [65.268245109828]
電子辞書から抽出した言語情報と語彙情報に富んだ分布意味資源を提案する。
リソースは21のドメイン固有の行列と1つの包括的なマトリックスとグラフィカルユーザインタフェースから構成される。
本モデルは,具体的概念知識に直接関連した行列を選択することにより,概念の意味的記述の推論を容易にする。
論文 参考訳(メタデータ) (2024-02-26T15:04:35Z) - AttrSeg: Open-Vocabulary Semantic Segmentation via Attribute
Decomposition-Aggregation [33.25304533086283]
オープンボキャブラリセマンティックセグメンテーションは、推論時に新しいオブジェクトカテゴリをセグメンテーションする必要がある難しいタスクである。
最近の研究では、この課題に対処するために視覚言語による事前訓練が検討されているが、現実的なシナリオでは非現実的な仮定に悩まされている。
本研究は,新しい概念を理解する上で,人間の認知に触発された新しい属性分解集約フレームワークであるAttrSegを提案する。
論文 参考訳(メタデータ) (2023-08-31T19:34:09Z) - Bridging Natural Language Processing and Psycholinguistics:
computationally grounded semantic similarity datasets for Basque and Spanish [0.0]
本稿では,2つの有名な自然言語処理資源,テキストコーパスと知識ベースに基づく単語類似性データセットを提案する。
現在のデータセットにはバスク語とスペイン語の名詞対の情報が含まれているが、さらに多くの言語に拡張することを意図している。
論文 参考訳(メタデータ) (2023-04-19T12:47:51Z) - A Comprehensive Empirical Evaluation of Existing Word Embedding
Approaches [5.065947993017158]
既存の単語埋め込み手法の特徴を概説し,多くの分類タスクについて解析する。
伝統的なアプローチでは、主に単語表現を生成するために行列分解を使い、言語の意味的および構文的規則性をうまく捉えることができない。
一方、ニューラルネットワークに基づくアプローチは、言語の洗練された規則性を捕捉し、生成した単語表現における単語関係を保存することができる。
論文 参考訳(メタデータ) (2023-03-13T15:34:19Z) - Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding [143.5927158318524]
テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
論文 参考訳(メタデータ) (2023-01-22T08:02:23Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Seeing Both the Forest and the Trees: Multi-head Attention for Joint
Classification on Different Compositional Levels [15.453888735879525]
自然言語では、単語は関連して文を構成するために使用される。
より低い言語的コンポーネントと高い言語的コンポーネントを明確に結び付けるディープニューラルネットワークアーキテクチャを設計する。
我々のモデルであるMHALは、異なるレベルの粒度でそれらを同時に解くことを学習していることを示す。
論文 参考訳(メタデータ) (2020-11-01T10:44:46Z) - Joint Semantic Analysis with Document-Level Cross-Task Coherence Rewards [13.753240692520098]
本稿では,共用コア参照解決のためのニューラルネットワークアーキテクチャと,英語のセマンティックロールラベリングについて述べる。
我々は、文書と意味的アノテーション間のグローバルコヒーレンスを促進するために強化学習を使用します。
これにより、異なるドメインからの複数のデータセットにおける両方のタスクが改善される。
論文 参考訳(メタデータ) (2020-10-12T09:36:24Z) - Exploring the Hierarchy in Relation Labels for Scene Graph Generation [75.88758055269948]
提案手法は,Recall@50において,複数の最先端ベースラインを大きなマージン(最大33%の相対利得)で改善することができる。
実験により,提案手法により,最先端のベースラインを大きなマージンで改善できることが示された。
論文 参考訳(メタデータ) (2020-09-12T17:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。