論文の概要: Statistical Analysis of Sentence Structures through ASCII, Lexical Alignment and PCA
- arxiv url: http://arxiv.org/abs/2503.10470v1
- Date: Thu, 13 Mar 2025 15:42:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:31.339818
- Title: Statistical Analysis of Sentence Structures through ASCII, Lexical Alignment and PCA
- Title(参考訳): ASCII, 語彙アライメント, PCAによる文構造の解析
- Authors: Abhijeet Sahdev,
- Abstract要約: アメリカ標準情報交換符号(ASCII)を用いて11テキストコーパスのテキストを表現する新しい統計手法を提案する。
ヒストグラムやShapiro-WilkやAnderson-Darling Testsといった正常性テストを通じて結果を分析する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: While utilizing syntactic tools such as parts-of-speech (POS) tagging has helped us understand sentence structures and their distribution across diverse corpora, it is quite complex and poses a challenge in natural language processing (NLP). This study focuses on understanding sentence structure balance - usages of nouns, verbs, determiners, etc - harmoniously without relying on such tools. It proposes a novel statistical method that uses American Standard Code for Information Interchange (ASCII) codes to represent text of 11 text corpora from various sources and their lexical category alignment after using their compressed versions through PCA, and analyzes the results through histograms and normality tests such as Shapiro-Wilk and Anderson-Darling Tests. By focusing on ASCII codes, this approach simplifies text processing, although not replacing any syntactic tools but complementing them by offering it as a resource-efficient tool for assessing text balance. The story generated by Grok shows near normality indicating balanced sentence structures in LLM outputs, whereas 4 out of the remaining 10 pass the normality tests. Further research could explore potential applications in text quality evaluation and style analysis with syntactic integration for more broader tasks.
- Abstract(参考訳): POS(part-of-speech)タグ付けなどの構文ツールを利用することで,文構造や多種多様なコーパスの分布を理解することができるが,非常に複雑であり,自然言語処理(NLP)の課題となっている。
本研究は, 名詞, 動詞, 決定詞などを用いた文構造バランスの理解に焦点をあてる。
各種情報源からの11のテキストコーパスのテキストと、PCAによる圧縮版の使用後の語彙カテゴリーアライメントを表現するために、ASCII符号を用いた新しい統計手法を提案し、その結果をシャピロ・ウィルクやアンダーソン・ダーリングテストのようなヒストグラムや正規化テストを通じて分析する。
ASCIIコードにフォーカスすることで、構文ツールを置き換えるのではなく、テキストバランスを評価するためのリソース効率の高いツールとして提供することで、テキスト処理を単純化する。
Grok が生成したストーリーは LLM 出力におけるバランスの取れた文構造を示すほぼ正規性を示すが、残りの10 件のうち4 件は正規性テストに合格している。
さらなる研究は、より広範なタスクのための構文統合によるテキスト品質評価とスタイル分析の潜在的な応用を探求する可能性がある。
関連論文リスト
- Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - SiTSE: Sinhala Text Simplification Dataset and Evaluation [1.7806363928929385]
本稿では,Sinhala言語に対する人文レベルのテキスト単純化データセットを提案する。
我々は,テキスト単純化タスクを多言語言語モデルmT5とmBARTのゼロショットおよびゼロリソースシーケンス・ツー・シーケンス(seq-seq)タスクとしてモデル化する。
分析の結果,ITTL は以前提案したゼロリソース法よりもテキストの単純化に優れていた。
論文 参考訳(メタデータ) (2024-12-02T09:08:06Z) - Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文 参考訳(メタデータ) (2023-09-25T15:42:18Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z) - A Case Study of Spanish Text Transformations for Twitter Sentiment
Analysis [1.9694608733361543]
感性分析は、与えられたテキストの極性、すなわちその正性または負性を決定するテキストマイニングタスクである。
テキスト表現の新しい形式は、スラング、正書法、文法的誤りを用いてテキストを分析するための新しい課題を示す。
論文 参考訳(メタデータ) (2021-06-03T17:24:31Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - A Multilingual Study of Multi-Sentence Compression using Word
Vertex-Labeled Graphs and Integer Linear Programming [1.3922732150370447]
Multi-Sentence Compression (MSC) は、類似した文のクラスタからキー情報を持つ短い文を生成することを目的としている。
本稿では,異なるキーワードを選択するためにグラフを用いたMSCの線形計画法について述べる。
システムの品質は良好で,3言語でニュースデータセットを導いた評価の精度に優れる。
論文 参考訳(メタデータ) (2020-04-09T10:35:16Z) - CompLex: A New Corpus for Lexical Complexity Prediction from Likert
Scale Data [13.224233182417636]
本稿では,連続語彙複雑性予測のための最初の英語データセットを提案する。
我々は5点のLikertスケールスキームを用いて、聖書、Europarl、バイオメディカルテキストの3つのソース/ドメインから、複雑な単語をテキストに注釈付けする。
論文 参考訳(メタデータ) (2020-03-16T03:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。