論文の概要: Iterative Augmentation with Summarization Refinement (IASR) Evaluation for Unstructured Survey data Modeling and Analysis
- arxiv url: http://arxiv.org/abs/2507.12126v1
- Date: Wed, 16 Jul 2025 10:49:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.362119
- Title: Iterative Augmentation with Summarization Refinement (IASR) Evaluation for Unstructured Survey data Modeling and Analysis
- Title(参考訳): 非構造化サーベイデータモデリングと解析のためのIASRによる反復的拡張評価
- Authors: Payal Bhattad, Sai Manoj Pudukotai Dinakarrao, Anju Gupta,
- Abstract要約: 本研究は,大規模言語モデル(LLM)に基づくテキスト拡張のための原則的評価フレームワークを導入する。
実証評価の結果, GPT-3.5 Turbo はセマンティック忠実度, 多様性, 生成効率の最良のバランスを達成できた。
- 参考スコア(独自算出の注目度): 0.43988112145759295
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text data augmentation is a widely used strategy for mitigating data sparsity in natural language processing (NLP), particularly in low-resource settings where limited samples hinder effective semantic modeling. While augmentation can improve input diversity and downstream interpretability, existing techniques often lack mechanisms to ensure semantic preservation during large-scale or iterative generation, leading to redundancy and instability. This work introduces a principled evaluation framework for large language model (LLM) based text augmentation, comprising two components: (1) Scalability Analysis, which measures semantic consistency as augmentation volume increases, and (2) Iterative Augmentation with Summarization Refinement (IASR), which evaluates semantic drift across recursive paraphrasing cycles. Empirical evaluations across state-of-the-art LLMs show that GPT-3.5 Turbo achieved the best balance of semantic fidelity, diversity, and generation efficiency. Applied to a real-world topic modeling task using BERTopic with GPT-enhanced few-shot labeling, the proposed approach results in a 400% increase in topic granularity and complete elimination of topic overlaps. These findings validated the utility of the proposed frameworks for structured evaluation of LLM-based augmentation in practical NLP pipelines.
- Abstract(参考訳): テキストデータ拡張は、自然言語処理(NLP)において、特に限られたサンプルが効果的なセマンティックモデリングを妨げている低リソース環境において、データの分散を緩和するために広く利用されている戦略である。
拡張は入力の多様性と下流の解釈可能性を改善するが、既存の手法は大規模または反復的な生成において意味的保存を保証するメカニズムを欠くことが多く、冗長性と不安定性をもたらす。
本研究は,大規模言語モデル(LLM)に基づくテキスト拡張のための基本的評価フレームワークを導入し,(1)拡張ボリュームの増加に伴って意味的一貫性を計測するスケーラビリティ分析,(2)要約リファインメント(IASR)による反復的拡張,および再帰的パラフレージングサイクルのセマンティックドリフトを評価する。
その結果, GPT-3.5 Turbo はセマンティック忠実度, 多様性, 生成効率の最良のバランスを達成できた。
GPTを付加した数発のラベル付きBERTopicを用いた実世界のトピックモデリングタスクに適用すると、提案手法はトピックの粒度が400%増加し、トピックオーバーラップを完全に排除する。
これらの結果から,実用NLPパイプラインにおけるLLMに基づく拡張の構造化評価のためのフレームワークの有用性が検証された。
関連論文リスト
- Arg-LLaDA: Argument Summarization via Large Language Diffusion Models and Sufficiency-Aware Refinement [14.24815847815289]
本稿では,要約を反復的に改善する新しい大規模言語拡散フレームワークArg-LLaDAを紹介する。
本手法では,フレキシブルマスキングコントローラと十分チェックモジュールを組み合わせることで,サポート対象,冗長,あるいは不完全なスパンを特定し,修正する。
2つのベンチマークデータセットの実証結果は、Arg-LLaDAが10の自動評価指標のうち7の最先端のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-07-25T09:07:52Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - Semantic-preserved Augmentation with Confidence-weighted Fine-tuning for Aspect Category Sentiment Analysis [3.1394848827666544]
大規模言語モデル(LLM)は、低リソースシナリオにおけるデータの不足に対処するための効果的なアプローチである。
本稿では、アスペクトカテゴリー感情分析タスクのためのデータ拡張戦略を提案する。
我々は、生成した文と原文とのセマンティック一貫性を確保するために、後処理技術を用いる。
論文 参考訳(メタデータ) (2025-06-08T13:53:28Z) - Adaptive Spatial Augmentation for Semi-supervised Semantic Segmentation [51.645152962504056]
半教師付きセマンティックセグメンテーションでは、データ拡張は弱い一貫性の規則化フレームワークにおいて重要な役割を果たす。
空間増強はSSSSのモデルトレーニングに寄与するが,弱い面と強い面の間には一貫性のないマスクが生じる。
本稿では,各インスタンスのエントロピーに基づいて動的に拡張を調整する適応的拡張戦略を提案する。
論文 参考訳(メタデータ) (2025-05-29T13:35:48Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - CSE-SFP: Enabling Unsupervised Sentence Representation Learning via a Single Forward Pass [3.0566617373924325]
プレトレーニング言語モデル(PLM)の最近の進歩は、この分野において顕著な進歩をもたらした。
CSE-SFPは,生成モデルの構造的特徴を利用する革新的な手法である。
CSE-SFPは高品質な埋め込みを実現するだけでなく、トレーニング時間とメモリ消費を著しく削減する。
論文 参考訳(メタデータ) (2025-05-01T08:27:14Z) - Unified Enhancement of the Generalization and Robustness of Language Models via Bi-Stage Optimization [2.502393972789905]
本稿では,LMの一般化とロバスト性の両方を均一に向上する二段階最適化フレームワークを提案する。
提案手法は,従来の手法と比較して,LMの一般化とロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-03-19T13:50:36Z) - Semantic Consistency Regularization with Large Language Models for Semi-supervised Sentiment Analysis [20.503153899462323]
本稿では,半教師付き感情分析のためのフレームワークを提案する。
テキストを意味的に拡張する2つのプロンプト戦略を導入する。
実験により,従来の半教師付き手法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2025-01-29T12:03:11Z) - Enhancing SLM via ChatGPT and Dataset Augmentation [0.3844771221441211]
我々は,大言語モデル (LLMs) と小言語モデル (SLMs) のパフォーマンスギャップを埋めるために,知識蒸留技術と合成データセット拡張を用いている。
提案手法は,情報抽出と情報推論という2種類の理性生成を伴い,ANLIデータセットを充実させる。
その結果, 合成合理化によって自然言語の理解能力が向上し, ANLIデータセット上での分類精度が1.3%, 2.3%向上することが判明した。
論文 参考訳(メタデータ) (2024-09-19T09:24:36Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。