論文の概要: FreshTab: Sourcing Fresh Data for Table-to-Text Generation Evaluation
- arxiv url: http://arxiv.org/abs/2510.13598v1
- Date: Wed, 15 Oct 2025 14:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.70908
- Title: FreshTab: Sourcing Fresh Data for Table-to-Text Generation Evaluation
- Title(参考訳): FreshTab: テーブル・ツー・テキスト・ジェネレーション・アセスメントのための新鮮なデータをサーシングする
- Authors: Kristýna Onderková, Ondřej Plátek, Zdeněk Kasner, Ondřej Dušek,
- Abstract要約: FreshTab(フレッシュタブ)はウィキペディアのオンライン・テーブル・トゥ・テキスト・ベンチマーク・ジェネレーションである。
LLMデータ汚染問題と闘うためにFreshTabを導入し、ドメインに敏感な評価を可能にする。
- 参考スコア(独自算出の注目度): 0.1749935196721634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Table-to-text generation (insight generation from tables) is a challenging task that requires precision in analyzing the data. In addition, the evaluation of existing benchmarks is affected by contamination of Large Language Model (LLM) training data as well as domain imbalance. We introduce FreshTab, an on-the-fly table-to-text benchmark generation from Wikipedia, to combat the LLM data contamination problem and enable domain-sensitive evaluation. While non-English table-to-text datasets are limited, FreshTab collects datasets in different languages on demand (we experiment with German, Russian and French in addition to English). We find that insights generated by LLMs from recent tables collected by our method appear clearly worse by automatic metrics, but this does not translate into LLM and human evaluations. Domain effects are visible in all evaluations, showing that a~domain-balanced benchmark is more challenging.
- Abstract(参考訳): テーブル・ツー・テキスト生成(テーブルからのインサイト・ジェネレーション)は、データの分析に正確性を必要とする課題である。
さらに、既存のベンチマークの評価は、Large Language Model (LLM) トレーニングデータの汚染やドメインの不均衡の影響を受けている。
本稿では,LLMデータ汚染問題に対処し,ドメインに敏感な評価を可能にするために,Wikipediaのテーブル・トゥ・テキスト・ベンチマークをオンザフライで生成するFreshTabを紹介する。
非英語のテーブル・トゥ・テキストのデータセットは限られているが、FreshTabは必要に応じて異なる言語でデータセットを収集している(英語に加えて、ドイツ語、ロシア語、フランス語も実験している)。
提案手法によって収集された最近の表からLLMが生成した知見は,自動測定値によって明らかに悪化しているように見えるが,LLMや人的評価には変換されない。
ドメイン効果はすべての評価で見られ、--ドメインバランスのベンチマークの方が難しいことが示されている。
関連論文リスト
- TableEval: A Real-World Benchmark for Complex, Multilingual, and Multi-Structured Table Question Answering [41.12322828986314]
既存のTableQAベンチマークは、単純なフラットテーブルにフォーカスし、データ漏洩に悩まされることがしばしばある。
現実的なTableQAタスク上でLLMを評価するために設計された新しいベンチマークであるTableEvalを紹介する。
データ漏洩のリスクを最小限に抑えるため、最近の実世界の文書からすべてのデータを収集する。
論文 参考訳(メタデータ) (2025-06-04T13:39:01Z) - Protecting multimodal large language models against misleading visualizations [94.71976205962527]
この結果から,誤解を招く可視化に対する質問応答(QA)の精度が,ランダムなベースラインのレベルに平均で低下していることが示唆された。
本研究では,非ミスリーディングの精度を損なうことなく,誤解を招くビジュアライゼーションにおけるQA性能を改善するための最初の推論時間手法を提案する。
テーブルベースのQAと視覚化を再描画する2つの方法が有効であり、最大19.6ポイントの改善が期待できる。
論文 参考訳(メタデータ) (2025-02-27T20:22:34Z) - Robustness of Large Language Models to Perturbations in Text [2.2734015467359217]
大規模言語モデル(LLM)は素晴らしいパフォーマンスを示していますが、現実のデータでは避けられないノイズを処理できますか?
この研究は、LLMのテキストのモルフォロジー変化に対するレジリエンスを調査することによって、この重要な問題に取り組む。
以上の結果から, LLM は, 一般の信念とは対照的に, 文中での騒々しい摂動に対して静かであることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-12T04:50:17Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Exploring the Robustness of Language Models for Tabular Question Answering via Attention Analysis [11.746575887340798]
大規模言語モデル(LLM)は、特定の訓練なしにテーブル(構造化された)理解タスクに取り組むことが示されている。
In-context Learning (ICL), model scale, instruction tune, and domain bias が Tabular QA (TQA) に与える影響を考察する。
奥行きの注意分析により、注意分散の摂動による変化と性能低下との間に強い相関関係が明らかとなった。
論文 参考訳(メタデータ) (2024-06-18T15:41:15Z) - TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [51.66718740300016]
TableLLMは80億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。
TableLLMはデータ操作タスクを巧みに扱うために構築されている。
我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文 参考訳(メタデータ) (2024-03-28T11:21:12Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。