論文の概要: Automatic Bottom-Up Taxonomy Construction: A Software Application Domain Study
- arxiv url: http://arxiv.org/abs/2409.15881v1
- Date: Tue, 24 Sep 2024 08:55:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 08:21:18.665548
- Title: Automatic Bottom-Up Taxonomy Construction: A Software Application Domain Study
- Title(参考訳): 自動ボトムアップ分類構築:ソフトウェア・アプリケーション・ドメイン・スタディ
- Authors: Cezar Sas, Andrea Capiluppi,
- Abstract要約: ソフトウェアアプリケーションドメイン分類に関するこれまでの研究は、適切な分類法が欠如しているため、課題に直面してきた。
本研究では,複数のデータソースを統合し,アンサンブル手法を活用することで,包括的ソフトウェアアプリケーション領域分類を開発することを目的とする。
- 参考スコア(独自算出の注目度): 6.0158981171030685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous research in software application domain classification has faced challenges due to the lack of a proper taxonomy that explicitly models relations between classes. As a result, current solutions are less effective for real-world usage. This study aims to develop a comprehensive software application domain taxonomy by integrating multiple datasources and leveraging ensemble methods. The goal is to overcome the limitations of individual sources and configurations by creating a more robust, accurate, and reproducible taxonomy. This study employs a quantitative research design involving three different datasources: an existing Computer Science Ontology (CSO), Wikidata, and LLMs. The study utilises a combination of automated and human evaluations to assess the quality of a taxonomy. The outcome measures include the number of unlinked terms, self-loops, and overall connectivity of the taxonomy. The results indicate that individual datasources have advantages and drawbacks: the CSO datasource showed minimal variance across different configurations, but a notable issue of missing technical terms and a high number of self-loops. The Wikipedia datasource required significant filtering during construction to improve metric performance. LLM-generated taxonomies demonstrated better performance when using context-rich prompts. An ensemble approach showed the most promise, successfully reducing the number of unlinked terms and self-loops, thus creating a more connected and comprehensive taxonomy. The study addresses the construction of a software application domain taxonomy relying on pre-existing resources. Our results indicate that an ensemble approach to taxonomy construction can effectively address the limitations of individual datasources. Future work should focus on refining the ensemble techniques and exploring additional datasources to enhance the taxonomy's accuracy and completeness.
- Abstract(参考訳): ソフトウェアアプリケーションドメイン分類におけるこれまでの研究は、クラス間の関係を明示的にモデル化する適切な分類法が欠如しているため、課題に直面してきた。
その結果、現在のソリューションは実世界の利用にはあまり効果がない。
本研究では,複数のデータソースを統合し,アンサンブル手法を活用することで,包括的ソフトウェアアプリケーション領域分類を開発することを目的とする。
目標は、より堅牢で正確で再現可能な分類を作ることによって、個々のソースや構成の限界を克服することである。
本研究は、既存のコンピュータ科学オントロジー(CSO)、Wikidata、LLMの3つの異なるデータソースを含む定量的研究設計を採用する。
この研究は、自動評価と人的評価を組み合わせることで、分類の質を評価する。
結果の尺度には、リンクされていない用語の数、自己ループ、分類の全体的な接続性が含まれる。
その結果、個々のデータソースには利点と欠点があることが示唆された。CSOデータソースは、異なる構成で最小限のばらつきを示したが、技術的な用語の欠如と多数のセルフループの問題があった。
ウィキペディアのデータソースは、メートル法の性能を改善するために建設中に重要なフィルタリングを必要とした。
LLM生成の分類学は、文脈に富むプロンプトを用いた場合、より良い性能を示した。
アンサンブルのアプローチは最も有望であり、リンクされていない用語や自己ループの数を減らすことに成功した。
この研究は、既存のリソースに依存したソフトウェアアプリケーションドメイン分類の構築に対処する。
以上の結果から,分類学構築におけるアンサンブルアプローチは,個々のデータソースの限界に効果的に対処できることが示唆された。
今後の研究は、アンサンブル技術の改良と、分類の正確性と完全性を高めるために追加のデータソースの探索に焦点をあてるべきである。
関連論文リスト
- Refining Wikidata Taxonomy using Large Language Models [2.392329079182226]
我々は,Large Language Models (LLM) とグラフマイニング技術を組み合わせたWikidata分類の新バージョンであるWiKCを提案する。
リンクを切断したり、クラスをマージしたりといった分類の操作は、オープンソースのLCM上でゼロショットプロンプトの助けを借りて行われる。
論文 参考訳(メタデータ) (2024-09-06T06:53:45Z) - FLAME: Self-Supervised Low-Resource Taxonomy Expansion using Large
Language Models [19.863010475923414]
タコノミは、eコマース検索エンジンやレコメンデーションシステムなど、様々な現実世界のアプリケーションで実用性を見出す。
伝統的に監督された分類学の拡張アプローチは、限られた資源から生じる困難に遭遇する。
我々は,大規模言語モデルの能力を活用して,低資源環境における分類学拡張のための新しいアプローチであるFLAMEを提案する。
論文 参考訳(メタデータ) (2024-02-21T08:50:40Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Data Optimization in Deep Learning: A Survey [3.1274367448459253]
本研究の目的は,ディープラーニングのための様々なデータ最適化手法を整理することである。
構築された分類学は分割次元の多様性を考慮し、各次元に深いサブタコノミが構築される。
構築された分類学と明らかにされた接続は、既存の手法のより良い理解と、新しいデータ最適化手法の設計を啓蒙する。
論文 参考訳(メタデータ) (2023-10-25T09:33:57Z) - Prompting or Fine-tuning? A Comparative Study of Large Language Models
for Taxonomy Construction [0.8670827427401335]
構造的制約を考慮した分類学構築のための一般的な枠組みを提案する。
我々は,超音速分類法と新しいコンピュータサイエンス分類法データセットで実施される即興的および微調整的アプローチを比較した。
論文 参考訳(メタデータ) (2023-09-04T16:53:17Z) - TaxoEnrich: Self-Supervised Taxonomy Completion via Structure-Semantic
Representations [28.65753036636082]
本稿では,既存の分類学における意味的特徴と構造的情報の両方を効果的に活用する新しい分類学補完フレームワークを提案する。
分類エンリッチは,(1)概念の意味的意味と分類学的関係を,強力な事前学習言語モデルに基づいて組み込んだ分類記述型埋め込み,(2)分類の構造情報を符号化して候補位置表現を学習する分類認識シーケンシャルエンコーダの4つの構成要素から構成される。
異なるドメインからの4つの大規模な実世界のデータセットの実験は、TaxoEnrichがすべての評価指標の中で最高のパフォーマンスを達成し、過去の最先端よりも大きなマージンでパフォーマンスを向上していることを示している。
論文 参考訳(メタデータ) (2022-02-10T08:10:43Z) - Taxonomy Enrichment with Text and Graph Vector Representations [61.814256012166794]
我々は,既存の分類学に新たな語を加えることを目的とした分類学の豊かさの問題に対処する。
我々は,この課題に対して,少ない労力で高い結果を得られる新しい手法を提案する。
我々は、異なるデータセットにわたる最先端の結果を達成し、ミスの詳細なエラー分析を提供する。
論文 参考訳(メタデータ) (2022-01-21T09:01:12Z) - Studying Taxonomy Enrichment on Diachronic WordNet Versions [70.27072729280528]
本稿では,資源の乏しい環境での分類拡張の可能性について検討し,多数の言語に適用可能な手法を提案する。
我々は、分類の豊かさを訓練し評価するための新しい英語とロシア語のデータセットを作成し、他の言語のためのそのようなデータセットを作成する技術を記述する。
論文 参考訳(メタデータ) (2020-11-23T16:49:37Z) - Octet: Online Catalog Taxonomy Enrichment with Self-Supervision [67.26804972901952]
オンラインカタログエンリッチメンTのための自己教師型エンドツーエンドフレームワークOctopを提案する。
本稿では,用語抽出のためのシーケンスラベリングモデルをトレーニングし,分類構造を捉えるためにグラフニューラルネットワーク(GNN)を用いることを提案する。
Octetは、オンラインカタログを、オープンワールド評価の2倍に強化する。
論文 参考訳(メタデータ) (2020-06-18T04:53:07Z) - STEAM: Self-Supervised Taxonomy Expansion with Mini-Paths [53.45704816829921]
本稿では,STEAMという自己管理型分類拡張モデルを提案する。
STEAMは自然の自己超越信号を生成し、ノードアタッチメント予測タスクを定式化する。
実験の結果、STEAMは11.6%の精度と7.0%の相反ランクで、最先端の分類法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-18T00:32:53Z) - TaxoExpan: Self-supervised Taxonomy Expansion with Position-Enhanced
Graph Neural Network [62.12557274257303]
分類学は機械解釈可能な意味論から成り、多くのウェブアプリケーションに貴重な知識を提供する。
そこで我々は,既存の分類学から,クエリの集合を自動生成するTaxoExpanという,新しい自己教師型フレームワークを提案する。
本研究では,(1)既存の分類学におけるアンカー概念の局所構造を符号化する位置強調グラフニューラルネットワーク,(2)学習モデルが自己超越データにおけるラベルノイズに敏感になるようなノイズローバスト学習の2つの手法を開発する。
論文 参考訳(メタデータ) (2020-01-26T21:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。