論文の概要: Leveraging Weighted Syntactic and Semantic Context Assessment Summary (wSSAS) Towards Text Categorization Using LLMs
- arxiv url: http://arxiv.org/abs/2604.12049v1
- Date: Mon, 13 Apr 2026 20:41:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.119776
- Title: Leveraging Weighted Syntactic and Semantic Context Assessment Summary (wSSAS) Towards Text Categorization Using LLMs
- Title(参考訳): LLMを用いたテキスト分類に向けた重み付き構文・意味文脈評価概要(wSSAS)の活用
- Authors: Shreeya Verma Kathuria, Nitin Mayande, Sharookh Daruwalla, Nitin Joglekar, Charles Weber,
- Abstract要約: 大規模でカオス的なデータセットにデータの整合性を強制するために設計された、重み付き構文とセマンティックコンテキストアセスメント概要(wSSAS)。
まず,テーマ,ストーリー,クラスタを含む階層的な分類構造に生テキストを整理する二段階検証フレームワークを提案する。
次に、SNR(Signal-to-Noise Ratio)を活用して、高価値なセマンティックな特徴を優先順位付けする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of Large Language Models (LLMs) for reliable, enterprise-grade analytics such as text categorization is often hindered by the stochastic nature of attention mechanisms and sensitivity to noise that compromise their analytical precision and reproducibility. To address these technical frictions, this paper introduces the Weighted Syntactic and Semantic Context Assessment Summary (wSSAS), a deterministic framework designed to enforce data integrity on large-scale, chaotic datasets. We propose a two-phased validation framework that first organizes raw text into a hierarchical classification structure containing Themes, Stories, and Clusters. It then leverages a Signal-to-Noise Ratio (SNR) to prioritize high-value semantic features, ensuring the model's attention remains focused on the most representative data points. By incorporating this scoring mechanism into a Summary-of-Summaries (SoS) architecture, the framework effectively isolates essential information and mitigates background noise during data aggregation. Experimental results using Gemini 2.0 Flash Lite across diverse datasets - including Google Business reviews, Amazon Product reviews, and Goodreads Book reviews - demonstrate that wSSAS significantly improves clustering integrity and categorization accuracy. Our findings indicate that wSSAS reduces categorization entropy and provides a reproducible pathway for improving LLM based summaries based on a high-precision, deterministic process for large-scale text categorization.
- Abstract(参考訳): 大規模言語モデル(LLM)をテキスト分類などの企業レベルの信頼性の高い分析に利用することは、しばしば注意機構の確率的性質や、その分析精度と再現性を損なうノイズに対する感受性によって妨げられる。
これらの技術的摩擦に対処するために、大規模でカオス的なデータセットにデータ整合性を強制する決定論的フレームワークであるWeighted Syntactic and Semantic Context Assessment Summary (wSSAS)を紹介する。
まず,テーマ,ストーリー,クラスタを含む階層的な分類構造に生テキストを整理する二段階検証フレームワークを提案する。
次に、SNR(Signal-to-Noise Ratio)を活用して、高価値なセマンティックな特徴を優先順位付けする。
このスコアリング機構をSoSアーキテクチャに組み込むことで、本質的な情報を効果的に分離し、データ集約時のバックグラウンドノイズを軽減する。
Google Business Review、Amazon Product Review、Goodreads Book Reviewなど、さまざまなデータセットにわたるGemini 2.0 Flash Liteを使用した実験結果は、wSSASがクラスタリングの整合性と分類精度を大幅に改善することを示している。
以上の結果から, wSSASは分類エントロピーを低減し, 大規模テキスト分類のための高精度, 決定論的プロセスに基づいて, LLMに基づく要約を改善する再現可能な経路を提供することが明らかとなった。
関連論文リスト
- Beyond Statistical Co-occurrence: Unlocking Intrinsic Semantics for Tabular Data Clustering [52.97486694817375]
本稿では,TagCC(Tabular-Augmented Contrastive Clustering)を提案する。
TagCCは、セマンティック・アウェア・トランスフォーメーションを通じて、基礎となるデータセマンティクスをテキストアンカーに蒸留する。
クラスタリングの目的と共同で最適化されており、学習した表現がセマンティックに一貫性があり、クラスタリングに親しみやすいことを保証する。
論文 参考訳(メタデータ) (2026-04-13T00:25:22Z) - Weight-Informed Self-Explaining Clustering for Mixed-Type Tabular Data [63.62853416081748]
WISEは表現、特徴重み付け、クラスタリング、解釈を統一するフレームワークである。
クラスタリングを駆動する同じプリミティブに根ざした、忠実で人間解釈可能な説明を生成する。
論文 参考訳(メタデータ) (2026-04-07T13:18:31Z) - Text summarization via global structure awareness [22.20867068329986]
GloSA-sumは、トポロジカルデータ解析を通じてグローバルな構造認識を実現する最初の要約手法である。
我々は文の埋め込みから意味重み付きグラフを構築し、永続的ホモロジーはコアセマンティクスと論理構造を識別する。
複数のデータセットの実験では、GloSA-sumは意味論的および論理的整合性を保ちながら冗長性を低下させることを示した。
論文 参考訳(メタデータ) (2026-02-10T14:29:54Z) - CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - Iterative Augmentation with Summarization Refinement (IASR) Evaluation for Unstructured Survey data Modeling and Analysis [0.43988112145759295]
本研究は,大規模言語モデル(LLM)に基づくテキスト拡張のための原則的評価フレームワークを導入する。
実証評価の結果, GPT-3.5 Turbo はセマンティック忠実度, 多様性, 生成効率の最良のバランスを達成できた。
論文 参考訳(メタデータ) (2025-07-16T10:49:30Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - Semantic Consistency Regularization with Large Language Models for Semi-supervised Sentiment Analysis [20.503153899462323]
本稿では,半教師付き感情分析のためのフレームワークを提案する。
テキストを意味的に拡張する2つのプロンプト戦略を導入する。
実験により,従来の半教師付き手法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2025-01-29T12:03:11Z) - Meta-Chunking: Learning Text Segmentation and Semantic Completion via Logical Perception [10.614437503578856]
本稿では,チャンキング品質を特に向上させるメタチャンキングフレームワークを提案する。
我々は不確実性に基づく2つの適応的チャンキング手法、すなわちPerplexity ChunkingとMargin Sampling Chunkingを設計する。
我々は,2段階の階層的要約生成プロセスと3段階のテキストチャンク書き換え手順を含むグローバル情報補償機構を確立する。
論文 参考訳(メタデータ) (2024-10-16T17:59:32Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。