論文の概要: CAST: Achieving Stable LLM-based Text Analysis for Data Analytics
- arxiv url: http://arxiv.org/abs/2602.15861v1
- Date: Mon, 26 Jan 2026 09:56:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.664387
- Title: CAST: Achieving Stable LLM-based Text Analysis for Data Analytics
- Title(参考訳): CAST: データ分析のための安定したLCMベースのテキスト分析を実現する
- Authors: Jinxiang Xie, Zihao Li, Wei He, Rui Ding, Shi Han, Dongmei Zhang,
- Abstract要約: textbfCAST (textbfAlgorithmic Prompting and textbfStable textbfThinking) は、モデルが潜在する推論経路を制約することによって出力安定性を向上させるフレームワークである。
キャスティングは全てのベースラインで常に最高の安定性を達成し、安定性スコアを最大16.2%改善し、出力品質を維持または改善する。
- 参考スコア(独自算出の注目度): 33.60091877488426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text analysis of tabular data relies on two core operations: \emph{summarization} for corpus-level theme extraction and \emph{tagging} for row-level labeling. A critical limitation of employing large language models (LLMs) for these tasks is their inability to meet the high standards of output stability demanded by data analytics. To address this challenge, we introduce \textbf{CAST} (\textbf{C}onsistency via \textbf{A}lgorithmic Prompting and \textbf{S}table \textbf{T}hinking), a framework that enhances output stability by constraining the model's latent reasoning path. CAST combines (i) Algorithmic Prompting to impose a procedural scaffold over valid reasoning transitions and (ii) Thinking-before-Speaking to enforce explicit intermediate commitments before final generation. To measure progress, we introduce \textbf{CAST-S} and \textbf{CAST-T}, stability metrics for bulleted summarization and tagging, and validate their alignment with human judgments. Experiments across publicly available benchmarks on multiple LLM backbones show that CAST consistently achieves the best stability among all baselines, improving Stability Score by up to 16.2\%, while maintaining or improving output quality.
- Abstract(参考訳): 表形式のデータのテキスト解析は、コーパスレベルのテーマ抽出のための \emph{summarization} と行レベルのラベリングのための \emph{tagging} の2つのコア操作に依存している。
これらのタスクに大規模言語モデル(LLM)を採用することの限界は、データ分析によって要求される出力安定性の高水準を満たすことができないことである。
この課題に対処するために、モデルが潜在する推論経路を制約することで出力安定性を高めるフレームワークである \textbf{CAST} (\textbf{C}onsistency via \textbf{A}lgorithmic Prompting and \textbf{S}table \textbf{T}hinking) を導入する。
CASTが組み合わさる
一 合理的な理由づけの変遷及び手続上の足場を課すためのアルゴリズムの試行
(二 最終世代前に明示的な中間コミットメントを実施すること。)
進行度を測定するために, 弾丸要約とタグ付けのための安定性指標である \textbf{CAST-S} と \textbf{CAST-T} を導入し, 人間の判断との整合性を検証する。
複数のLCMバックボーンで公開されているベンチマーク実験により、CASTは一貫してすべてのベースラインで最高の安定性を達成し、安定性を最大16.2倍改善し、出力品質を維持または改善した。
関連論文リスト
- Short Chains, Deep Thoughts: Balancing Reasoning Efficiency and Intra-Segment Capability via Split-Merge Optimization [68.89915707647138]
大規模推論モデル(LRM)は、長い推論連鎖の生成を通じて複雑なタスクを解く際、印象的な能力を示した。
textbfCoSMo(textbfSplit-textbfMerge textbfOptimization)を提案する。
論文 参考訳(メタデータ) (2026-02-03T05:54:28Z) - LLM-Driven Adaptive Source-Sink Identification and False Positive Mitigation for Static Analysis [0.0]
textscAdaTaintは、ソース/シンク仕様を適応的に推論し、ニューロシンボリック推論を通じて刺激的な警告をフィルタリングする。
textscAdaTaintは、プログラム事実と制約検証のモデル提案を基礎にして、適応性と決定性の両方を保証する。
結果はtextscAdaTaint がtextbf43.7% で偽陽性を減らし、textbf11.2% でリコールを改善することを示している。
論文 参考訳(メタデータ) (2025-11-06T03:44:10Z) - CMT-Bench: Cricket Multi-Table Generation Benchmark for Probing Robustness in Large Language Models [11.167804698594866]
我々は,ライブクリケットによる診断ベンチマークであるCMT-Benchを紹介する。
抽出サマリー,入力長による単調な劣化,実体形変化による一貫した精度低下を伴わない大きな滴が見つかる。
論文 参考訳(メタデータ) (2025-10-20T23:51:28Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。
この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文 参考訳(メタデータ) (2025-06-06T05:14:04Z) - TS-HTFA: Advancing Time Series Forecasting via Hierarchical Text-Free Alignment with Large Language Models [14.411646409316624]
時系列予測の新しい手法である textbfHierarchical textbfText-textbfFree textbfAlignment (textbfTS-HTFA) を導入する。
我々は、QR分解語埋め込みと学習可能なプロンプトに基づいて、ペア化されたテキストデータを適応的な仮想テキストに置き換える。
複数の時系列ベンチマークの実験は、HTFAが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-09-23T12:57:24Z) - Exploring the Robustness of Language Models for Tabular Question Answering via Attention Analysis [11.746575887340798]
大規模言語モデル(LLM)は、特定の訓練なしにテーブル(構造化された)理解タスクに取り組むことが示されている。
In-context Learning (ICL), model scale, instruction tune, and domain bias が Tabular QA (TQA) に与える影響を考察する。
奥行きの注意分析により、注意分散の摂動による変化と性能低下との間に強い相関関係が明らかとなった。
論文 参考訳(メタデータ) (2024-06-18T15:41:15Z) - Advancing Semantic Textual Similarity Modeling: A Regression Framework with Translated ReLU and Smooth K2 Loss [3.435381469869212]
本稿では,Sentence-BERT STSタスクのための革新的な回帰フレームワークを提案する。
これは2つの単純で効果的な損失関数、Translated ReLUとSmooth K2 Lossを提案する。
実験結果から,本手法は7つのSTSベンチマークにおいて有意な性能を達成できることが示された。
論文 参考訳(メタデータ) (2024-06-08T02:52:43Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。