論文の概要: A Text-based Approach For Link Prediction on Wikipedia Articles
- arxiv url: http://arxiv.org/abs/2309.00317v2
- Date: Tue, 7 Nov 2023 03:32:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 19:05:11.031014
- Title: A Text-based Approach For Link Prediction on Wikipedia Articles
- Title(参考訳): ウィキペディア記事のリンク予測のためのテキストベースアプローチ
- Authors: Anh Hoang Tran, Tam Minh Nguyen and Son T. Luu
- Abstract要約: 本稿では,ウィキペディア記事のリンク予測に関するDSAA 2023 Challengeで紹介する。
POSタグ(part-of-speechタグ)を備えた従来の機械学習モデルを使用して、2つのノードにリンクがあるかどうかを予測する分類モデルをトレーニングする。
F1スコアは0.99999で,競技では7位となった。
- 参考スコア(独自算出の注目度): 1.9567015559455132
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper present our work in the DSAA 2023 Challenge about Link Prediction
for Wikipedia Articles. We use traditional machine learning models with POS
tags (part-of-speech tags) features extracted from text to train the
classification model for predicting whether two nodes has the link. Then, we
use these tags to test on various machine learning models. We obtained the
results by F1 score at 0.99999 and got 7th place in the competition. Our source
code is publicly available at this link:
https://github.com/Tam1032/DSAA2023-Challenge-Link-prediction-DS-UIT_SAT
- Abstract(参考訳): 本稿では,ウィキペディア記事のリンク予測に関するDSAA 2023 Challengeで紹介する。
テキストから抽出したPOSタグ(part-of-speechタグ)機能を備えた従来の機械学習モデルを用いて、2つのノードにリンクがあるかどうかを予測する。
そして、これらのタグを使ってさまざまな機械学習モデルをテストする。
結果は0.99999でf1得点で獲得し,コンペティションで7位となった。
私たちのソースコードはこのリンクで公開されている。 https://github.com/tam1032/dsaa2023-challenge-link-prediction-ds-uit_sat
関連論文リスト
- Learning Multiplex Embeddings on Text-rich Networks with One Text
Encoder [58.536112184212534]
本稿では,TExt-Rich ネットワーク上での多重埋め込み学習のための新しいフレームワーク METERN を提案する。
既存の手法とは対照的に、METERNは1つのテキストエンコーダを使用して関係性間の共有知識をモデル化する。
学術分野と電子商取引分野の5つのネットワークにおいて,9つの下流タスクについて実験を行った。
論文 参考訳(メタデータ) (2023-10-10T14:59:22Z) - Link Prediction for Wikipedia Articles as a Natural Language Inference
Task [1.1842520528140819]
本稿では、自然言語推論(NLI)タスクとして定式化することで、ウィキペディアの記事の予測をリンクする手法を提案する。
ウィキペディア記事タスクのリンク予測のための文ペア分類に基づくシステムを実装した。
当システムでは,公開テストセットとプライベートテストセットでそれぞれ0.99996 Macro F1スコアと1.00000 Macro F1スコアを達成した。
論文 参考訳(メタデータ) (2023-08-31T05:25:04Z) - Scalable handwritten text recognition system for lexicographic sources
of under-resourced languages and alphabets [1.304892050913381]
17世紀と18世紀のポーランド語辞典という大きな歴史辞典では、インデックスカードは280万枚である。
我々は,(1)最適化された検出モデル,(2)手書きコンテンツを解読する認識モデル,(3)制約付きWord Beam Searchを用いた後処理ステップを含む手書き文字認識ソリューションを適用した。
我々のモデルは単語レベルで0.881の精度を達成し、ベースRCNNモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-03-28T19:06:27Z) - Homophone Reveals the Truth: A Reality Check for Speech2Vec [1.2691047660244335]
本稿では,本分野における基礎研究の真正性,すなわちSpeech2Vecについて検討する。
これらの埋め込みがSpeech2Vecモデルによって生成されるという兆候はない。
実験の結果、このモデルは効果的なセマンティック埋め込みを学習できなかった。
論文 参考訳(メタデータ) (2022-09-22T05:32:09Z) - Learning Tracking Representations via Dual-Branch Fully Transformer
Networks [82.21771581817937]
追従のためのトランスフォーマーのみをベースとした,シームズ型デュアルブランチネットワークを提案する。
注目ウィンドウ内の他のパッチとのマッチング結果に基づいて,各パッチの特徴ベクトルを抽出する。
この手法は、最高の性能の方法として、より良い結果または同等の結果を得る。
論文 参考訳(メタデータ) (2021-12-05T13:44:33Z) - Detecting Handwritten Mathematical Terms with Sensor Based Data [71.84852429039881]
本稿では,手書きの数学的用語を自動分類する,スタビロによるUbiComp 2021チャレンジの解を提案する。
入力データセットには異なるライターのデータが含まれており、ラベル文字列は合計15の異なる文字から構成されている。
論文 参考訳(メタデータ) (2021-09-12T19:33:34Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - KBCNMUJAL@HASOC-Dravidian-CodeMix-FIRE2020: Using Machine Learning for
Detection of Hate Speech and Offensive Code-Mixed Social Media text [1.0499611180329804]
本論文では,欧州言語におけるHate Speech と Offensive Content Identification の共有タスク 2 タスクについて,KBCNMUJAL チームから提出されたシステムについて述べる。
2つのドラヴィディアン言語Vizのデータセット。
サイズ4000のマラヤラムとタミルは、それぞれHASOC主催者によって共有されました。
両言語で開発された最も優れた分類モデルは、テストデータセットに適用される。
論文 参考訳(メタデータ) (2021-02-19T11:08:02Z) - NLP-CIC at SemEval-2020 Task 9: Analysing sentiment in code-switching
language using a simple deep-learning classifier [63.137661897716555]
コードスイッチングは、2つ以上の言語が同じメッセージで使用される現象である。
標準的な畳み込みニューラルネットワークモデルを用いて、スペイン語と英語の混在するツイートの感情を予測する。
論文 参考訳(メタデータ) (2020-09-07T19:57:09Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z) - Tha3aroon at NSURL-2019 Task 8: Semantic Question Similarity in Arabic [5.214494546503266]
NSURL 2019のセマンティックテキスト質問類似性タスクに対するチームの取り組みについて述べる。
我々のトップパフォーマンスシステムは、トレーニングデータを拡大するために、いくつかの革新的なデータ拡張技術を利用している。
データの事前学習されたコンテキスト埋め込みをELMoが受け取り、自己注意型のON-LSTMネットワークにフィードする。
論文 参考訳(メタデータ) (2019-12-28T20:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。