論文の概要: Text sampling strategies for predicting missing bibliographic links
- arxiv url: http://arxiv.org/abs/2301.01673v1
- Date: Wed, 4 Jan 2023 15:53:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 16:19:33.433989
- Title: Text sampling strategies for predicting missing bibliographic links
- Title(参考訳): 欠落書誌リンク予測のためのテキストサンプリング戦略
- Authors: F. V. Krasnova, I. S. Smaznevicha, E. N. Baskakova
- Abstract要約: 本稿では,自動文分類を行う際に,テキストをサンプリングする様々な手法を提案する。
文脈サイズと位置の異なる多くのサンプリング戦略について検討する。
本手法は,応用知的情報システムのレコメンデーションエンジンに使用することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The paper proposes various strategies for sampling text data when performing
automatic sentence classification for the purpose of detecting missing
bibliographic links. We construct samples based on sentences as semantic units
of the text and add their immediate context which consists of several
neighboring sentences. We examine a number of sampling strategies that differ
in context size and position. The experiment is carried out on the collection
of STEM scientific papers. Including the context of sentences into samples
improves the result of their classification. We automatically determine the
optimal sampling strategy for a given text collection by implementing an
ensemble voting when classifying the same data sampled in different ways.
Sampling strategy taking into account the sentence context with hard voting
procedure leads to the classification accuracy of 98% (F1-score). This method
of detecting missing bibliographic links can be used in recommendation engines
of applied intelligent information systems.
- Abstract(参考訳): 本稿では,欠落した文献リンクを検出するために自動文分類を行う際に,テキストデータをサンプリングする様々な手法を提案する。
テキストの意味単位として文に基づくサンプルを構築し,隣接する複数の文からなる即時文脈を追加する。
コンテキストサイズと位置の異なる多数のサンプリング戦略について検討する。
実験はSTEM科学論文の収集で行われている。
サンプルに文のコンテキストを含めると、分類の結果が改善される。
異なる方法でサンプリングされた同じデータを分類する際に、アンサンブル投票を行うことにより、所定のテキストコレクションの最適なサンプリング戦略を自動的に決定する。
厳格な投票手順による文文脈を考慮したサンプリング戦略は、98%(F1スコア)の分類精度をもたらす。
この欠落した書誌リンクを検出する方法は、応用知的情報システムのレコメンデーションエンジンで使用できる。
関連論文リスト
- Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号工程における多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法の本質的な能力を推定する体系的手法を提案する。
本研究は,既存のトラクションサンプリング手法の総合的な比較と,ユーザのガイドラインとして推奨されるパラメータについて紹介する。
論文 参考訳(メタデータ) (2024-08-24T14:14:32Z) - Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution [1.3654846342364308]
最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。
本稿では,クレームに基づくテキスト分類タスクの共通パラダイムとして,定性的で多目的な少ショット学習手法の提案とリリースを行う。
本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
論文 参考訳(メタデータ) (2024-05-09T12:03:38Z) - Bilevel Scheduled Sampling for Dialogue Generation [6.89978591161039]
文レベル情報を考慮し、単語レベルの品質を組み込んだバイレベルスケジュールサンプリングモデルを提案する。
DailyDialog と PersonaChat のデータセットを用いて実験を行い,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-09-05T05:05:06Z) - Identifying Semantically Difficult Samples to Improve Text
Classification [4.545971444299925]
下流テキスト分類タスクにおけるテキストデータセットからの難解なサンプルに対処する効果について検討する。
難解なサンプルを,意味的な埋め込み空間で解析することで,テキスト分類の難解な事例と定義する。
13の標準データセットに対して、一貫した改善を最大9%まで示す徹底的な実験を行った。
論文 参考訳(メタデータ) (2023-02-13T07:33:46Z) - Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised
Person Re-Identification and Text Authorship Attribution [77.85461690214551]
完全ラベル付きデータからの学習は、Person Re-IdentificationやText Authorship Attributionなどのマルチメディアフォレスト問題において困難である。
近年の自己教師型学習法は,基礎となるクラスに意味的差異が有る場合に,完全ラベル付きデータを扱う際に有効であることが示されている。
本研究では,異なるクラスからのサンプルが顕著に多様性を持っていない場合でも,ラベルのないデータから学習できるようにすることにより,個人再認識とテキストオーサシップの属性に対処する戦略を提案する。
論文 参考訳(メタデータ) (2022-02-07T13:08:11Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise
Comparisons [85.5955376526419]
ランキングアグリゲーション問題では、各項目を比較する際に、様々な精度レベルが示される。
本稿では,ノイズのあるペアワイズ比較によってアイテムのランクを推定する,除去に基づくアクティブサンプリング戦略を提案する。
提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。
論文 参考訳(メタデータ) (2021-10-08T13:51:55Z) - Constructing Contrastive samples via Summarization for Text
Classification with limited annotations [46.53641181501143]
テキスト要約を用いた言語タスクのコントラストサンプル構築のための新しい手法を提案する。
我々はこれらのサンプルを教師付きコントラスト学習に使用し、アノテーションを限定したより良いテキスト表現を得る。
実世界のテキスト分類データセット(Amazon-5、Yelp-5、AG News)の実験では、提案したコントラスト学習フレームワークの有効性が示されている。
論文 参考訳(メタデータ) (2021-04-11T20:13:24Z) - An Unsupervised Sampling Approach for Image-Sentence Matching Using
Document-Level Structural Information [64.66785523187845]
教師なし画像文マッチングの問題に焦点をあてる。
既存の研究では、文書レベルの構造情報を用いて、モデルトレーニングの正および負のインスタンスをサンプリングする方法が検討されている。
そこで本研究では,追加の文書内画像-文対を正あるいは負のサンプルとして選択する新しいサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T05:43:29Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。