論文の概要: CMT-Bench: Cricket Multi-Table Generation Benchmark for Probing Robustness in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.18173v1
- Date: Mon, 20 Oct 2025 23:51:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.733284
- Title: CMT-Bench: Cricket Multi-Table Generation Benchmark for Probing Robustness in Large Language Models
- Title(参考訳): CMT-Bench:大規模言語モデルにおけるロバスト性の検証のためのクリケットマルチテーブル生成ベンチマーク
- Authors: Ritam Upadhyay, Naman Ahuja, Rishabh Baral, Aparna Garimella, Vivek Gupta,
- Abstract要約: 我々は,ライブクリケットによる診断ベンチマークであるCMT-Benchを紹介する。
抽出サマリー,入力長による単調な劣化,実体形変化による一貫した精度低下を伴わない大きな滴が見つかる。
- 参考スコア(独自算出の注目度): 11.167804698594866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM Driven text-to-table (T2T) systems often rely on extensive prompt-engineering or iterative event extraction in code-parsable formats, which boosts scores but are computationally expensive and obscure how models actually reason over temporal evolving narratives to summarise key information. We present CMT-Bench, a diagnostic benchmark built from live cricket commentary that requires dynamic table generation across two evolving schemas under a dense, rule-governed policy. CMT-Bench is designed to probe robustness via three semantics-preserving dimensions: (i) extractive-cue ablation to separate extractive shortcuts from state tracking, (ii) temporal prefixing to test long-context stability, and (iii) entity-form perturbations (anonymization, outof-distribution substitutions, role-entangling paraphrases) to assess sensitivity to surface variation. Across diverse long-context stateof-the-art LLMs, we find large drops without extractive summaries, monotonic degradation with input length, and consistent accuracy drop under entity-form changes. Complementary distributional tests confirm significant shifts in numeric error patterns, indicating drift in reasoning rather than mere noise. Our results show that current LLMs are brittle in dynamic Textto-table generation, motivating robustness-first evaluation as a prerequisite for developing efficient and scalable approaches for this task.
- Abstract(参考訳): LLM Driven Text-to-table (T2T) システムは、しばしば、コードパーザブルなフォーマットでの広範なプロンプトエンジニアリングや反復的なイベント抽出に依存しており、スコアを上昇させるが、時間的進化的な物語をモデルが実際にどのように推論してキー情報を要約するかは、計算的に高価で曖昧である。
CMT-Benchはライブクリケットコメンタリーから構築された診断ベンチマークで、2つの進化するスキーマをまたいだ動的テーブル生成を必要とする。
CMT-Benchは、3つのセマンティクス保存次元を通してロバストネスを探索するように設計されている。
一 状態追跡から抽出ショートカットを分離するための抽出キューアブレーション
二 経時的前置詞で長文安定性を検査し、
3) 表面変化に対する感受性を評価するために, 実体形摂動(匿名化, アウトオブディストリビューション置換, ロールエンタングリングパラフレーズ)
各種の長文LLMに対して,抽出サマリーのない大滴,入力長による単調な劣化,実体形変化による一貫した精度低下がみられた。
相補的な分布試験により数値的誤りパターンの有意な変化が確認され、単なるノイズではなく推論の漂流が示唆された。
この結果から,現在のLLMは動的テクスチャテーブル生成において不安定であり,高効率でスケーラブルな手法開発のための前提条件としてロバストネス優先の評価を動機付けていることがわかった。
関連論文リスト
- PTEB: Towards Robust Text Embedding Evaluation via Stochastic Paraphrasing at Evaluation Time with LLMs [0.21485350418225244]
評価時に意味的パラフレーズを生成し,複数の実行で結果を集約する動的プロトコルであるParaphrasing Text Embedding Benchmark (PTEB) を導入する。
文エンコーダの性能は意味論が固定されたままでもトークン空間の変化に敏感であるという仮説を検証する。
結果は複数の実行に対して統計的に堅牢であり、実験を10言語をカバーする3つのデータセットに拡張しました。
論文 参考訳(メタデータ) (2025-10-08T07:37:19Z) - AXIS: Explainable Time Series Anomaly Detection with Large Language Models [33.68487894996624]
AXISは、時系列理解のための凍結したLarge Language Models (LLM) を規定するフレームワークである。
LLMは離散トークンで動作し、長い連続的な信号を直接処理するのに苦労する。
文脈的接地とパターンレベルのセマンティクスを監督するマルチフォーマットの質問と合理性を特徴とする新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-09-29T07:24:22Z) - CALM: A Framework for Continuous, Adaptive, and LLM-Mediated Anomaly Detection in Time-Series Streams [0.42970700836450476]
本稿では,リアルタイム異常検出のための新しいエンドツーエンドフレームワークであるCALMを紹介する。
CALMはApache Beam分散処理フレームワーク上に構築されている。
クローズドループで連続的な微調整機構を実装し、異常検出モデルがほぼリアルタイムで進化するデータパターンに適応できるようにする。
論文 参考訳(メタデータ) (2025-08-29T00:27:35Z) - SUTA-LM: Bridging Test-Time Adaptation and Language Model Rescoring for Robust ASR [58.31068047426522]
テスト時間適応(TTA)は、推論中にモデルを調整することで緩和することを目的としている。
最近の研究は、ビーム探索再構成や生成誤り訂正といった手法を用いて、TTAと外部言語モデルの組み合わせについて検討している。
本稿では,SUTAの簡易かつ効果的な拡張であるSUTA-LMを提案する。
18種類のASRデータセットの実験により、SUTA-LMは幅広い領域で堅牢な結果が得られることが示された。
論文 参考訳(メタデータ) (2025-06-10T02:50:20Z) - LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。
この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文 参考訳(メタデータ) (2025-06-06T05:14:04Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Test-Time Alignment for Large Language Models via Textual Model Predictive Control [63.508812485566374]
Textual Model Predictive Control (TMPC) は、推論時に大規模言語モデルを調整するために適応された新しい予測計画フレームワークである。
TMPCは、談話レベル翻訳、長文応答生成、プログラム合成の3つの異なるセグメンテーション特性を持つタスクで評価される。
その結果、TMPCはパフォーマンスを継続的に改善し、一般性を強調している。
論文 参考訳(メタデータ) (2025-02-28T07:24:33Z) - TS-HTFA: Advancing Time Series Forecasting via Hierarchical Text-Free Alignment with Large Language Models [14.411646409316624]
時系列予測の新しい手法である textbfHierarchical textbfText-textbfFree textbfAlignment (textbfTS-HTFA) を導入する。
我々は、QR分解語埋め込みと学習可能なプロンプトに基づいて、ペア化されたテキストデータを適応的な仮想テキストに置き換える。
複数の時系列ベンチマークの実験は、HTFAが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-09-23T12:57:24Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。