論文の概要: Text sampling strategies for predicting missing bibliographic links
- arxiv url: http://arxiv.org/abs/2301.01673v1
- Date: Wed, 4 Jan 2023 15:53:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 16:19:33.433989
- Title: Text sampling strategies for predicting missing bibliographic links
- Title(参考訳): 欠落書誌リンク予測のためのテキストサンプリング戦略
- Authors: F. V. Krasnova, I. S. Smaznevicha, E. N. Baskakova
- Abstract要約: 本稿では,自動文分類を行う際に,テキストをサンプリングする様々な手法を提案する。
文脈サイズと位置の異なる多くのサンプリング戦略について検討する。
本手法は,応用知的情報システムのレコメンデーションエンジンに使用することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The paper proposes various strategies for sampling text data when performing
automatic sentence classification for the purpose of detecting missing
bibliographic links. We construct samples based on sentences as semantic units
of the text and add their immediate context which consists of several
neighboring sentences. We examine a number of sampling strategies that differ
in context size and position. The experiment is carried out on the collection
of STEM scientific papers. Including the context of sentences into samples
improves the result of their classification. We automatically determine the
optimal sampling strategy for a given text collection by implementing an
ensemble voting when classifying the same data sampled in different ways.
Sampling strategy taking into account the sentence context with hard voting
procedure leads to the classification accuracy of 98% (F1-score). This method
of detecting missing bibliographic links can be used in recommendation engines
of applied intelligent information systems.
- Abstract(参考訳): 本稿では,欠落した文献リンクを検出するために自動文分類を行う際に,テキストデータをサンプリングする様々な手法を提案する。
テキストの意味単位として文に基づくサンプルを構築し,隣接する複数の文からなる即時文脈を追加する。
コンテキストサイズと位置の異なる多数のサンプリング戦略について検討する。
実験はSTEM科学論文の収集で行われている。
サンプルに文のコンテキストを含めると、分類の結果が改善される。
異なる方法でサンプリングされた同じデータを分類する際に、アンサンブル投票を行うことにより、所定のテキストコレクションの最適なサンプリング戦略を自動的に決定する。
厳格な投票手順による文文脈を考慮したサンプリング戦略は、98%(F1スコア)の分類精度をもたらす。
この欠落した書誌リンクを検出する方法は、応用知的情報システムのレコメンデーションエンジンで使用できる。
関連論文リスト
- Bilevel Scheduled Sampling for Dialogue Generation [6.89978591161039]
文レベル情報を考慮し、単語レベルの品質を組み込んだバイレベルスケジュールサンプリングモデルを提案する。
DailyDialog と PersonaChat のデータセットを用いて実験を行い,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-09-05T05:05:06Z) - Structured Voronoi Sampling [69.26504269777544]
本稿では,勾配に基づく手法を用いた言語モデルから抽出する原理的アプローチの構築に向けて重要な一歩を踏み出す。
我々は勾配に基づく構造ヴォロノイサンプリング(Structured Voronoi Smpling, SVS)と呼ぶ。
制御された生成タスクでは、SVSは流動的で多様なサンプルを生成できるが、制御対象は他の方法よりもはるかに優れている。
論文 参考訳(メタデータ) (2023-06-05T17:32:35Z) - Identifying Semantically Difficult Samples to Improve Text
Classification [4.545971444299925]
下流テキスト分類タスクにおけるテキストデータセットからの難解なサンプルに対処する効果について検討する。
難解なサンプルを,意味的な埋め込み空間で解析することで,テキスト分類の難解な事例と定義する。
13の標準データセットに対して、一貫した改善を最大9%まで示す徹底的な実験を行った。
論文 参考訳(メタデータ) (2023-02-13T07:33:46Z) - A comprehensive review of automatic text summarization techniques:
method, data, evaluation and coding [1.9241821314180376]
本稿では,ATS(Automatic Text Summarization)システムに関する文献レビューを行う。
我々は、引用に基づくアプローチを検討し、それらが要約を生成するメカニズムによって導かれるATSに対する多様なアプローチを示す。
また、要約タスクに利用可能なデータセットの広範なレビューと、要約の品質を評価する方法についても紹介する。
論文 参考訳(メタデータ) (2023-01-04T19:20:18Z) - Revisiting text decomposition methods for NLI-based factuality scoring
of summaries [9.044665059626958]
細粒度分解が必ずしも事実性スコアの勝利戦略であるとは限らないことを示す。
また,従来提案されていたエンテーメントに基づくスコアリング手法の小さな変更により,性能が向上することを示した。
論文 参考訳(メタデータ) (2022-11-30T09:54:37Z) - Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised
Person Re-Identification and Text Authorship Attribution [77.85461690214551]
完全ラベル付きデータからの学習は、Person Re-IdentificationやText Authorship Attributionなどのマルチメディアフォレスト問題において困難である。
近年の自己教師型学習法は,基礎となるクラスに意味的差異が有る場合に,完全ラベル付きデータを扱う際に有効であることが示されている。
本研究では,異なるクラスからのサンプルが顕著に多様性を持っていない場合でも,ラベルのないデータから学習できるようにすることにより,個人再認識とテキストオーサシップの属性に対処する戦略を提案する。
論文 参考訳(メタデータ) (2022-02-07T13:08:11Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise
Comparisons [85.5955376526419]
ランキングアグリゲーション問題では、各項目を比較する際に、様々な精度レベルが示される。
本稿では,ノイズのあるペアワイズ比較によってアイテムのランクを推定する,除去に基づくアクティブサンプリング戦略を提案する。
提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。
論文 参考訳(メタデータ) (2021-10-08T13:51:55Z) - Constructing Contrastive samples via Summarization for Text
Classification with limited annotations [46.53641181501143]
テキスト要約を用いた言語タスクのコントラストサンプル構築のための新しい手法を提案する。
我々はこれらのサンプルを教師付きコントラスト学習に使用し、アノテーションを限定したより良いテキスト表現を得る。
実世界のテキスト分類データセット(Amazon-5、Yelp-5、AG News)の実験では、提案したコントラスト学習フレームワークの有効性が示されている。
論文 参考訳(メタデータ) (2021-04-11T20:13:24Z) - An Unsupervised Sampling Approach for Image-Sentence Matching Using
Document-Level Structural Information [64.66785523187845]
教師なし画像文マッチングの問題に焦点をあてる。
既存の研究では、文書レベルの構造情報を用いて、モデルトレーニングの正および負のインスタンスをサンプリングする方法が検討されている。
そこで本研究では,追加の文書内画像-文対を正あるいは負のサンプルとして選択する新しいサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T05:43:29Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。