論文の概要: Evaluating Structured Decoding for Text-to-Table Generation: Evidence from Three Datasets
- arxiv url: http://arxiv.org/abs/2508.15910v1
- Date: Thu, 21 Aug 2025 18:11:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.162007
- Title: Evaluating Structured Decoding for Text-to-Table Generation: Evidence from Three Datasets
- Title(参考訳): テキスト・ツー・テイブル・ジェネレーションのための構造化デコードの評価:3つのデータセットからの証拠
- Authors: Julian Oestreich, Lydia Müller,
- Abstract要約: 大規模言語モデル(LLM)を用いたテキスト・ツー・テーブル生成のための構造化復号の包括的評価を行う。
構造化デコーディングと標準ワンショットプロンプトの3つのベンチマーク(E2E、Rotowire、Livesum)を比較した。
その結果,構造化復号化は生成テーブルの妥当性とアライメントを著しく向上させるが,密集したテキスト情報を含むコンテキストでは性能が低下する可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.2578242050187029
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a comprehensive evaluation of structured decoding for text-to-table generation with large language models (LLMs). While previous work has primarily focused on unconstrained generation of tables, the impact of enforcing structural constraints during generation remains underexplored. We systematically compare schema-guided (structured) decoding to standard one-shot prompting across three diverse benchmarks - E2E, Rotowire, and Livesum - using open-source LLMs of up to 32B parameters, assessing the performance of table generation approaches in resource-constrained settings. Our experiments cover a wide range of evaluation metrics at cell, row, and table levels. Results demonstrate that structured decoding significantly enhances the validity and alignment of generated tables, particularly in scenarios demanding precise numerical alignment (Rotowire), but may degrade performance in contexts involving densely packed textual information (E2E) or extensive aggregation over lengthy texts (Livesum). We further analyze the suitability of different evaluation metrics and discuss the influence of model size.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) を用いたテキスト・ツー・テーブル生成のための構造化デコーディングの包括的評価を行う。
これまでの研究は主に制約のないテーブルの生成に焦点を合わせてきたが、生成中の構造的制約を強制することの影響は未解明のままである。
E2E、Rotowire、Livesumの3つの異なるベンチマークにおいて、最大32BパラメータのオープンソースのLCMを用いて、スキーマ誘導(構造化)デコーディングと標準ワンショットプロンプトを体系的に比較し、リソース制約のある設定におけるテーブル生成アプローチのパフォーマンスを評価する。
実験では, セルレベル, 行レベル, テーブルレベルなど, 幅広い評価指標について検討した。
その結果、構造化復号化は、特に正確な数値アライメントを必要とするシナリオ(Rotowire)において、生成したテーブルの妥当性とアライメントを著しく向上させるが、密集したテキスト情報(E2E)や長いテキスト(Livesum)に対する広範な集約(Livesum)を含むコンテキストにおいて、性能を低下させる可能性があることが示された。
さらに、異なる評価指標の適合性を分析し、モデルサイズの影響について論じる。
関連論文リスト
- Table-BiEval: A Self-Supervised, Dual-Track Framework for Decoupling Structure and Content in LLM Evaluation [11.450834626205676]
Table-BiEvalは、人間の自由で自己管理的な評価フレームワークに基づく、新しいアプローチである。
コンテンツセマンティック精度と正規化ツリー編集距離を計算し、構造をコンテンツから切り離す。
結果は大きな変動を示し、中規模のモデルが驚くほど大きなモデルよりも構造効率が優れていることを浮き彫りにしている。
論文 参考訳(メタデータ) (2026-01-09T07:38:27Z) - TabReX : Tabular Referenceless eXplainable Evaluation [15.411207072791806]
TabReXは、大規模な言語モデルによって生成されたテーブルを評価するための、参照レスでプロパティ駆動のフレームワークである。
構造的および事実的忠実度を定量化する解釈可能なルーリック認識スコアを計算する。
堅牢性を評価するため、6つのドメインと12のプランナー駆動摂動型にまたがる大規模なベンチマークであるTabReX-Benchを紹介する。
論文 参考訳(メタデータ) (2025-12-17T19:20:20Z) - Struc-EMB: The Potential of Structure-Aware Encoding in Language Embeddings [16.728984584960738]
本稿では,構造認識テキストの埋め込み生成のための新しいパラダイムを,体系的に導入し,評価する。
本稿では,逐次連結と並列キャッシングという2つのプロセス内手法について検討する。
並列キャッシングは、長い高信号のコンテキストに対してより効果的にスケールするが、気晴らしにはより敏感である。
論文 参考訳(メタデータ) (2025-10-09T19:45:54Z) - Multi-Dimensional Summarization Agents with Context-Aware Reasoning over Enterprise Tables [0.0]
本稿では,大規模言語モデル(LLM)に基づくエージェントを用いて,複数の次元にわたる構造化エンタープライズデータを要約する新しいフレームワークを提案する。
本手法では,スライシング,分散検出,コンテキスト構築,LLMに基づく生成を行うエージェントを用いて,多次元データの抽出,解析,要約を行うマルチエージェントパイプラインを提案する。
我々は、Kaggleデータセットのフレームワークを評価し、ベースラインテーブルの要約アプローチよりも忠実さ、妥当性、および洞察品質を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-08-10T05:27:42Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Map&Make: Schema Guided Text to Table Generation [41.52038779169547]
テキスト・ツー・テイブル・ジェネレーションは情報検索に欠かせない課題である。
テキストを命題のアトミックステートメントに"識別"する汎用的なアプローチであるMap&Makeを導入する。
このアプローチは、RotowireとLivesumという2つの挑戦的なデータセットに対してテストされています。
論文 参考訳(メタデータ) (2025-05-29T07:12:46Z) - Beyond Factual Accuracy: Evaluating Coverage of Diverse Factual Information in Long-form Text Generation [56.82274763974443]
ICATは、長文テキスト生成における多様な事実情報のカバレッジを測定するための評価フレームワークである。
原子の事実的クレームと出力で提示されるであろう様々な側面のアライメントを計算する。
私たちのフレームワークは、多様性とカバレッジの解釈可能かつきめ細かな分析を提供します。
論文 参考訳(メタデータ) (2025-01-07T05:43:23Z) - Towards More Effective Table-to-Text Generation: Assessing In-Context Learning and Self-Evaluation with Open-Source Models [0.0]
本研究では,ベンチマークデータセット間の言語モデル(LM)における様々なコンテキスト内学習戦略の有効性について検討する。
我々は、チェーンオブ思考推論を用いた大規模言語モデル(LLM)の自己評価アプローチを採用し、BERTScoreのような人力対応メトリクスとの相関性を評価する。
本研究はテーブル・ツー・テキスト・ジェネレーションの改善における実例の顕著な影響を浮き彫りにし, LLM の自己評価には可能性があるが, 人間の判断と現在の整合性は向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-15T09:19:42Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - Attend, Memorize and Generate: Towards Faithful Table-to-Text Generation
in Few Shots [58.404516361586325]
Few-shot table-to-text generation は、限られたデータを用いてテーブル内容を伝えるために、流動的で忠実な文を構成するタスクである。
本稿では,人間のテキスト生成プロセスに触発された新しい手法,覚醒と生成(AMG)を提案する。
論文 参考訳(メタデータ) (2022-03-01T20:37:20Z) - Few-Shot Table-to-Text Generation with Prototype Memory [14.69889589370148]
本稿では,プロトタイプ・ツー・ジェネレーション (P2G) という,プロトタイプ・トゥ・ジェネレーション(Prototype-to-Generate, P2G) を用いたテーブル・トゥ・テキスト生成手法を提案する。
提案フレームワークは、IRシステムと新しいプロトタイプセレクタによって共同で選択された、検索されたプロトタイプを利用する。
3つの最先端モデルを用いた3つのベンチマークデータセットの実験結果から,提案手法がモデル性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2021-08-27T22:16:30Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - Towards Faithful Neural Table-to-Text Generation with Content-Matching
Constraints [63.84063384518667]
そこで本研究では,トランスフォーマーをベースとした新たな生成フレームワークを提案する。
忠実度を強制する手法の中核となる技術は、テーブル-テキストの最適トランスポート・マッチング・ロスである。
忠実度を評価するため,テーブル・ツー・テキスト生成問題に特化した新しい自動尺度を提案する。
論文 参考訳(メタデータ) (2020-05-03T02:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。