論文の概要: Content Significance Distribution of Sub-Text Blocks in Articles and Its Application to Article-Organization Assessment
- arxiv url: http://arxiv.org/abs/2311.01673v3
- Date: Tue, 24 Sep 2024 11:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 09:50:02.498512
- Title: Content Significance Distribution of Sub-Text Blocks in Articles and Its Application to Article-Organization Assessment
- Title(参考訳): 記事中のサブテキストブロックのコンテンツ価値分布と記事組織化評価への応用
- Authors: You Zhou, Jie Wang,
- Abstract要約: サブテキストブロックのコンテンツ重要度分布(CSD)の概念を定式化する。
特に,Hugging FaceのSentence Transformerを利用して文脈文の埋め込みを生成する。
近似 CSD-1 は正確な CSD-1 とほぼ同一であることを示す。
- 参考スコア(独自算出の注目度): 3.2245324254437846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore how to capture the significance of a sub-text block in an article and how it may be used for text mining tasks. A sub-text block is a sub-sequence of sentences in the article. We formulate the notion of content significance distribution (CSD) of sub-text blocks, referred to as CSD of the first kind and denoted by CSD-1. In particular, we leverage Hugging Face's SentenceTransformer to generate contextual sentence embeddings, and use MoverScore over text embeddings to measure how similar a sub-text block is to the entire text. To overcome the exponential blowup on the number of sub-text blocks, we present an approximation algorithm and show that the approximated CSD-1 is almost identical to the exact CSD-1. Under this approximation, we show that the average and median CSD-1's for news, scholarly research, argument, and narrative articles share the same pattern. We also show that under a certain linear transformation, the complement of the cumulative distribution function of the beta distribution with certain values of $\alpha$ and $\beta$ resembles a CSD-1 curve. We then use CSD-1's to extract linguistic features to train an SVC classifier for assessing how well an article is organized. Through experiments, we show that this method achieves high accuracy for assessing student essays. Moreover, we study CSD of sentence locations, referred to as CSD of the second kind and denoted by CSD-2, and show that average CSD-2's for different types of articles possess distinctive patterns, which either conform common perceptions of article structures or provide rectification with minor deviation.
- Abstract(参考訳): 記事中のサブテキストブロックの意義と、テキストマイニングタスクにどのように使われるかを検討する。
サブテキストブロックは記事中の文のサブシーケンスである。
サブテキストブロックのコンテンツ重要度分布(CSD)の概念を定式化し、CSD-1 で表される第1種類の CSD を定式化する。
特に,Hugging FaceのSentenceTransformerを利用してコンテキスト文の埋め込みを生成し,テキスト埋め込み上でMoverScoreを使用してサブテキストブロックがテキスト全体とどの程度類似しているかを測定する。
サブテキストブロック数の指数関数的爆発を克服するため,近似アルゴリズムを提案し,近似されたCSD-1が正確なCSD-1とほぼ同一であることを示す。
この近似では,ニュース,学術研究,論議,物語記事の平均的,中央値のCSD-1が,同じパターンを共有していることを示す。
また、ある線形変換の下では、ベータ分布の累積分布関数を、ある値 $\alpha$ と $\beta$ が CSD-1 曲線に類似していることが示される。
次に, CSD-1を用いて言語的特徴を抽出し, SVC分類器を訓練し, 記事の整理精度を評価する。
実験により,本手法は学生エッセイ評価の精度が高いことを示す。
さらに,第2種の文章位置のCSDをCSD-2で表し,各種類の記事の平均CSD-2が特徴的パターンを持つことを示す。
関連論文リスト
- Hierarchical Indexing for Retrieval-Augmented Opinion Summarization [60.5923941324953]
本稿では,抽出アプローチの帰属性と拡張性と,大規模言語モデル(LLM)の一貫性と拡散性を組み合わせた,教師なし抽象的意見要約手法を提案する。
我々の方法であるHIROは、意味的に整理された離散的な階層を通して文を経路にマッピングするインデックス構造を学習する。
推測時にインデックスを投入し、入力レビューから人気意見を含む文群を識別し、検索する。
論文 参考訳(メタデータ) (2024-03-01T10:38:07Z) - Statistical Depth for Ranking and Characterizing Transformer-Based Text
Embeddings [1.321681963474017]
統計深度は、観測されたk次元分布に対して集中度を測定することによって、k次元オブジェクトをランク付けする関数である。
本研究では, 変圧器によるテキスト埋め込み, 変圧器によるテキスト埋め込み (TTE) の分布測定に統計的深度を導入し, NLPパイプラインのモデリングと分布推定の両方にこの深度を実用的に利用した。
論文 参考訳(メタデータ) (2023-10-23T15:02:44Z) - Attributable and Scalable Opinion Summarization [79.87892048285819]
我々は、頻繁なエンコーディングを復号することで抽象的な要約を生成し、同じ頻繁なエンコーディングに割り当てられた文を選択して抽出的な要約を生成する。
本手法は,要約プロセスの一部として要約を生成するために使用される文を同定するため,帰属的手法である。
なぜなら、アグリゲーションはトークンの長いシーケンスではなく、潜在空間で実行されるからである。
論文 参考訳(メタデータ) (2023-05-19T11:30:37Z) - Entry Separation using a Mixed Visual and Textual Language Model:
Application to 19th century French Trade Directories [18.323615434182553]
重要な課題は、ターゲットデータベースの基本的なテキスト領域を構成するものを正確に分割することである。
19世紀のフランス貿易ディレクトリーに効率性を示す新しい実用的アプローチを提案する。
NER目的に使用される言語モデルのトークンストリームに、特別なビジュアルトークン、例えばインデントやブレークといったコーディングを注入することで、テキストと視覚の両方の知識を同時に活用することができる。
論文 参考訳(メタデータ) (2023-02-17T15:30:44Z) - InfoCSE: Information-aggregated Contrastive Learning of Sentence
Embeddings [61.77760317554826]
本稿では,教師なし文の埋め込みを学習するための情報型コントラスト学習フレームワーク InfoCSE を提案する。
提案したInfoCSEを,セマンティックテキスト類似性(STS)タスクを用いて,いくつかのベンチマークデータセット上で評価する。
実験の結果, InfoCSE は BERT ベースでは2.60%, BERT 大規模では1.77% でSimCSE より優れていた。
論文 参考訳(メタデータ) (2022-10-08T15:53:19Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - FreSaDa: A French Satire Data Set for Cross-Domain Satire Detection [18.059360820527687]
FreSaDaは、ニュースドメインから11,570の記事で構成されるフランスのサティアデータセットです。
我々は新しいデータセットのベースラインとして2つの分類法を用いる。
論文 参考訳(メタデータ) (2021-04-10T18:21:53Z) - A Novel Two-stage Framework for Extracting Opinionated Sentences from
News Articles [24.528177249269582]
本稿では,あるニュース記事から意見文を抽出する新しい2段階の枠組みを提案する。
最初の段階では、ローカル機能を利用してNaive Bayes分類器が各文にスコアを割り当てます。
第2段階では、HITS(Hyperlink-Induced Topic Search)スキーマ内でこの前もって、記事のグローバル構造を利用しています。
論文 参考訳(メタデータ) (2021-01-24T16:24:20Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。