論文の概要: TSQAgent: Rating Time Series Data Quality via Dedicated Agentic Reasoning
- arxiv url: http://arxiv.org/abs/2606.03629v1
- Date: Tue, 02 Jun 2026 13:28:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.026431
- Title: TSQAgent: Rating Time Series Data Quality via Dedicated Agentic Reasoning
- Title(参考訳): TSQAgent: Dedicated Agentic Reasoningによる時系列データ品質の評価
- Authors: Shunyu Wu, Dan Li, Haozheng Ye, Weibin Feng, Jian Lou, Bo Zhang, Wenjie Feng, Chenjuan Guo, See-Kiong Ng,
- Abstract要約: 大規模言語モデル (LLM) はペアワイズ比較と次元毎の評価による品質評価のための有望なパラダイムとして登場した。
本稿では,3つの協調的役割からなるTS品質評価のためのエージェント推論フレームワークを提案する。
- 参考スコア(独自算出の注目度): 47.22475727079753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing the quality of time series (TS) data is fundamental yet inherently challenging due to the multifaceted nature of quality dimensions. Recently, large language models (LLMs) have emerged as a promising paradigm for TS quality assessment via pairwise comparison and per-dimension evaluation. However, existing approaches rely on manually predefined quality dimensions and purely text-based reasoning, leaving it unknown whether LLMs can identify truly relevant quality dimensions or perform grounded and quantitative quality comparisons. To investigate this, we construct TSQBench, a dedicated benchmark for evaluating LLMs on two progressive capabilities: (i) understanding and identifying relevant quality dimensions, and (ii) performing quality comparison under specific dimensions. Our analysis reveals that current LLMs consistently struggle with both dimension identification and evidence-grounded quality comparison. To address these limitations, we propose TSQAgent, a novel agentic reasoning framework for TS quality rating consisting of three collaborative roles: Perceiver for focused dimension selection, Inspector for dimension-wise quantitative analysis, and Adjudicator that aggregates and refines the final judgment. In particular, we introduce an agentic reasoning strategy that instills the ability to identify and prioritize the most relevant quality dimensions, and further propose an agent workflow equipped with external analytical tools to enable precise quantitative comparisons over selected dimensions. Experiments on both the proposed benchmark and eleven real-world datasets demonstrate that our framework not only substantially improves LLMs' capabilities in quality understanding and quantitative comparison but also effectively translates these improvements into better quality-aware data selection, leading to enhanced downstream performance and data efficiency.
- Abstract(参考訳): 時系列データ(TS)の質を評価することは、品質次元の多面的な性質のため、本質的には困難である。
近年,大規模言語モデル (LLM) が対比較と次元毎の評価によるTS品質評価の有望なパラダイムとして出現している。
しかし、既存のアプローチは手動で定義された品質次元と純粋にテキストベースの推論に依存しており、LLMが真に関連する品質次元を識別できるのか、基礎的で定量的な品質比較を行うことができるのかは不明である。
TSQBenchは、2つのプログレッシブな能力でLSMを評価するための専用ベンチマークである。
一 関連する品質の次元を理解し、特定すること、
二 特定の寸法で品質比較を行うこと。
分析の結果,現在のLLMは,寸法同定と根拠に基づく品質比較の両面で一貫して苦戦していることが明らかとなった。
これらの制約に対処するため、TSQAgentは、三つの協調的な役割からなる、TS品質評価のための新しいエージェント的推論フレームワークである。
特に、最も関連性の高い品質次元を識別・優先順位付けする機能を具備するエージェント推論戦略を導入し、また、選択した次元に対して正確な定量的比較を可能にする外部分析ツールを備えたエージェントワークフローを提案する。
提案したベンチマークと11の実世界のデータセットによる実験により、我々のフレームワークは、品質理解と量的比較においてLLMの能力を大幅に改善するだけでなく、これらの改善をより高品質なデータ選択に効果的に変換し、下流のパフォーマンスとデータ効率が向上することを示した。
関連論文リスト
- A Multi-Dimensional Quality Scoring Framework for Decentralized LLM Inference with Proof of Quality [2.621929201001929]
出力品質をモジュラー次元に分解する多次元品質評価フレームワークを提案する。
一見合理的な次元はタスク依存であり、校正なしで基準品質と負の相関があることを示す。
論文 参考訳(メタデータ) (2026-03-04T13:05:46Z) - TSRating: Rating Quality of Diverse Time Series Data by Meta-learning from LLM Judgment [35.012553346034395]
本稿では,様々な領域から収集された時系列データの質を評価するフレームワークであるTSRatingを提案する。
評価精度, 効率, ドメイン適応性の観点から, TSR がベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2025-06-02T03:52:55Z) - Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models [7.61977883644433]
データ品質を評価するために,専門性,可読性,推論,清潔さの4つの側面を提案する。
学習した最適重み付けにより,これらの次元を既存の品質指標と統合する多次元データ選択手法であるMeta-raterを紹介する。
実験により、Meta-raterは1.3Bパラメータモデルの収束速度を2倍にし、下流タスク性能を3.23倍に改善し、7.2Bパラメータのモデルにスケールする利点がある。
論文 参考訳(メタデータ) (2025-04-19T06:12:33Z) - Teaching LMMs for Image Quality Scoring and Interpreting [71.1335005098584]
Q-SiT(Quality Scoring and Interpreting Joint Teaching)は,画像品質のスコアリングと解釈を同時に行うための統合フレームワークである。
Q-SiTは、Q-SiT-miniと共に画像品質スコアリングと解釈タスクを同時に実行する最初のモデルである。
実験結果から,Q-SiTはIQA能力の優れた両タスクにおいて高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-12T09:39:33Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Adaptive Image Quality Assessment via Teaching Large Multimodal Model to Compare [99.57567498494448]
我々はLMMに基づくノン参照IQAモデルであるCompare2Scoreを紹介する。
トレーニング中、同じIQAデータセットの画像を比較することで、スケールアップ比較命令を生成する。
9つのIQAデータセットの実験により、Compare2Scoreは、トレーニング中にテキスト定義の比較レベルを効果的にブリッジすることを確認した。
論文 参考訳(メタデータ) (2024-05-29T17:26:09Z) - A Novel Metric for Measuring Data Quality in Classification Applications
(extended version) [0.0]
データ品質を測定するための新しい指標を紹介し説明する。
この尺度は、分類性能とデータの劣化の相関した進化に基づいている。
各基準の解釈と評価レベルの例を提供する。
論文 参考訳(メタデータ) (2023-12-13T11:20:09Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。