論文の概要: A Novel Multidimensional Reference Model For Heterogeneous Textual
Datasets Using Context, Semantic And Syntactic Clues
- arxiv url: http://arxiv.org/abs/2311.06183v1
- Date: Fri, 10 Nov 2023 17:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 14:26:09.432702
- Title: A Novel Multidimensional Reference Model For Heterogeneous Textual
Datasets Using Context, Semantic And Syntactic Clues
- Title(参考訳): コンテキスト・セマンティック・シンタクティック・キューを用いた異種テキストデータセットの多次元参照モデル
- Authors: Ganesh Kumar, Shuib Basri, Abdullahi Abubakar Imam, Abdullateef
Oluwaqbemiga Balogun, Hussaini Mamman, Luiz Fernando Capretz
- Abstract要約: 本研究の目的は、異種データセットのカテゴリを用いた新しい多次元参照モデルを作ることである。
MRMの主な貢献は、シノニム、アントロニム、フォーマル、語彙語順、共起といった言語カテゴリーの索引付けに基づいて各用語でそれぞれのトークンをチェックすることである。
- 参考スコア(独自算出の注目度): 4.453735522794044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advent of technology and use of latest devices, they produces
voluminous data. Out of it, 80% of the data are unstructured and remaining 20%
are structured and semi-structured. The produced data are in heterogeneous
format and without following any standards. Among heterogeneous (structured,
semi-structured and unstructured) data, textual data are nowadays used by
industries for prediction and visualization of future challenges. Extracting
useful information from it is really challenging for stakeholders due to
lexical and semantic matching. Few studies have been solving this issue by
using ontologies and semantic tools, but the main limitations of proposed work
were the less coverage of multidimensional terms. To solve this problem, this
study aims to produce a novel multidimensional reference model using
linguistics categories for heterogeneous textual datasets. The categories such
context, semantic and syntactic clues are focused along with their score. The
main contribution of MRM is that it checks each tokens with each term based on
indexing of linguistic categories such as synonym, antonym, formal, lexical
word order and co-occurrence. The experiments show that the percentage of MRM
is better than the state-of-the-art single dimension reference model in terms
of more coverage, linguistics categories and heterogeneous datasets.
- Abstract(参考訳): テクノロジーの出現と最新のデバイスの使用により、彼らは輝かしいデータを生み出す。
うち80%は構造化されておらず、残りの20%は構造化され半構造化されている。
生成されたデータは異種フォーマットであり、標準に従わない。
ヘテロジニアス(構造化、半構造化、非構造化)データの中で、テキストデータは、現在、将来の課題の予測と可視化のために業界によって使われている。
語彙的および意味的マッチングのため、利害関係者にとって有用な情報を抽出するのは本当に難しい。
オントロジーとセマンティックツールを用いてこの問題を解決している研究はほとんどないが、提案された研究の主な制限は多次元項のカバレッジの低下であった。
そこで本研究では,異種テキストデータセットを対象とした言語カテゴリーを用いた新しい多次元参照モデルを提案する。
文脈、意味、構文の手がかりといったカテゴリは、スコアとともに焦点を合わせます。
MRMの主な貢献は、シノニム、アントロニム、フォーマル、語彙語順、共起といった言語カテゴリーの索引付けに基づいて各用語でそれぞれのトークンをチェックすることである。
実験の結果, MRMの比率は, より網羅的, 言語学的カテゴリ, 異種データセットの観点から, 最先端の単一次元参照モデルよりも優れていることがわかった。
関連論文リスト
- Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution [1.3654846342364308]
最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。
本稿では,クレームに基づくテキスト分類タスクの共通パラダイムとして,定性的で多目的な少ショット学習手法の提案とリリースを行う。
本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
論文 参考訳(メタデータ) (2024-05-09T12:03:38Z) - Visual Analytics for Fine-grained Text Classification Models and Datasets [3.6873612681664016]
SemLaは、きめ細かいテキスト分類に適した、新しいビジュアル分析システムである。
本稿では,SemLaにおける反復設計研究と結果のイノベーションについて述べる。
論文 参考訳(メタデータ) (2024-03-21T17:26:28Z) - Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - AttrSeg: Open-Vocabulary Semantic Segmentation via Attribute
Decomposition-Aggregation [33.25304533086283]
オープンボキャブラリセマンティックセグメンテーションは、推論時に新しいオブジェクトカテゴリをセグメンテーションする必要がある難しいタスクである。
最近の研究では、この課題に対処するために視覚言語による事前訓練が検討されているが、現実的なシナリオでは非現実的な仮定に悩まされている。
本研究は,新しい概念を理解する上で,人間の認知に触発された新しい属性分解集約フレームワークであるAttrSegを提案する。
論文 参考訳(メタデータ) (2023-08-31T19:34:09Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding [143.5927158318524]
テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
論文 参考訳(メタデータ) (2023-01-22T08:02:23Z) - Compositional Temporal Grounding with Structured Variational Cross-Graph
Correspondence Learning [92.07643510310766]
ビデオの時間的接地は、あるクエリ文に意味的に対応する1つのターゲットビデオセグメントをローカライズすることを目的としている。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
出現した単語の新たな組み合わせによるクエリの一般化に失敗したことを実証的に見出した。
本稿では,ビデオと言語を複数の階層構造に明示的に分解する多変分グラフ推論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-24T12:55:23Z) - Context vs Target Word: Quantifying Biases in Lexical Semantic Datasets [18.754562380068815]
BERTのような最先端のコンテキスト化モデルは、WiCやWSDのようなタスクを使用して、ワード・イン・コンテクストの表現を評価する。
本研究は,主要な文脈的語彙意味タスクにおいて,文脈-単語間相互作用を検証した最初の定量的分析(探索ベースラインを用いた)を提案する。
論文 参考訳(メタデータ) (2021-12-13T15:37:05Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - WikiAsp: A Dataset for Multi-domain Aspect-based Summarization [69.13865812754058]
マルチドメインアスペクトベースの要約のための大規模データセットであるWikiAspを提案する。
具体的には、アスペクトアノテーションのプロキシとして、各記事のセクションタイトルとバウンダリを使用して、20の異なるドメインからウィキペディア記事を使用してデータセットを構築します。
その結果,既存の要約モデルがこの設定で直面する重要な課題,例えば引用されたソースの適切な代名詞処理,時間に敏感なイベントの一貫した説明などが浮き彫りになった。
論文 参考訳(メタデータ) (2020-11-16T10:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。