論文の概要: PPT: A Process-based Preference Learning Framework for Self Improving Table Question Answering Models
- arxiv url: http://arxiv.org/abs/2505.17565v1
- Date: Fri, 23 May 2025 07:24:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.892349
- Title: PPT: A Process-based Preference Learning Framework for Self Improving Table Question Answering Models
- Title(参考訳): PPT:自己改善型テーブル質問回答モデルのためのプロセスベース推論学習フレームワーク
- Authors: Wei Zhou, Mohsen Mesgar, Heike Adel, Annemarie Friedrich,
- Abstract要約: 本稿では,テーブル質問応答のためのプロセスベース推論学習フレームワークを提案する。
推論連鎖を離散状態に分解し、各状態にスコアを割り当て、選好学習のための対照的なステップをサンプリングする。
- 参考スコア(独自算出の注目度): 16.790216473975146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving large language models (LLMs) with self-generated data has demonstrated success in tasks such as mathematical reasoning and code generation. Yet, no exploration has been made on table question answering (TQA), where a system answers questions based on tabular data. Addressing this gap is crucial for TQA, as effective self-improvement can boost performance without requiring costly or manually annotated data. In this work, we propose PPT, a Process-based Preference learning framework for TQA. It decomposes reasoning chains into discrete states, assigns scores to each state, and samples contrastive steps for preference learning. Experimental results show that PPT effectively improves TQA models by up to 5% on in-domain datasets and 2.4% on out-of-domain datasets, with only 8,000 preference pairs. Furthermore, the resulting models achieve competitive results compared to more complex and larger state-of-the-art TQA systems, while being five times more efficient during inference.
- Abstract(参考訳): 自己生成データによる大規模言語モデル(LLM)の改善は、数学的推論やコード生成といったタスクで成功している。
しかし,テーブル質問応答(TQA)では,表データに基づく質問応答の探索は行われていない。
このギャップに対処することは、TQAにとって不可欠である。効果的な自己改善は、コストや手動のアノテートデータを必要とすることなく、パフォーマンスを向上させることができるからだ。
本稿では,TQAのためのプロセスベース推論学習フレームワークであるPTを提案する。
推論連鎖を離散状態に分解し、各状態にスコアを割り当て、選好学習のための対照的なステップをサンプリングする。
実験の結果、PTはドメイン内データセットで最大5%、ドメイン外データセットで2.4%のTQAモデルを効果的に改善し、わずか8,000の選好ペアしか持たないことがわかった。
さらに、結果として得られるモデルは、より複雑でより大きな最先端のTQAシステムと比較して競争結果を得るが、推論時の効率は5倍に向上する。
関連論文リスト
- CoT-based Synthesizer: Enhancing LLM Performance through Answer Synthesis [31.953858122298517]
本稿では,CoTをベースとした新しい推論スケーリング戦略であるSynthesizerを提案する。
複数の候補応答から相補的な情報を解析することにより、優れた回答を合成する。
その結果,Llama3-8Bは11.8%,GPT-4oは10.3%向上した。
論文 参考訳(メタデータ) (2025-01-03T06:50:06Z) - Question: How do Large Language Models perform on the Question Answering tasks? Answer: [0.0]
大型言語モデル(LLM)は、少数ショットまたはゼロショットプロンプト技術を用いることで、これらのタスクを明示的にトレーニングする必要なしに、様々なNLPタスクに対して有望な結果を示している。
スタンフォード質問回答データセット 2.0 (SQuAD2) 上で、小型の微調整モデルとアウト・オブ・ザ・ボックスの命令追従 LLM の総合的な性能比較を提案する。
以上の結果から, より小型で細調整されたモデルでは, 細調整されたタスクにおいて, 現状のSOTA(State-Of-The-Art) LLMよりも優れていることがわかったが, 最新のSOTAモデルでは, このギャップを埋めることができる。
論文 参考訳(メタデータ) (2024-12-17T13:19:38Z) - Structured List-Grounded Question Answering [11.109829342410265]
文書対話システムは,外部情報を活用することで,ユーザからの問い合わせに答えることを目的としている。
従来の研究は主に自由形式の文書を扱うことに焦点を当てており、しばしばリストのような構造化されたデータを見下ろしている。
本稿では,構造化リストの解釈と利用を改善するために,質問応答システムを強化することを目的とする。
論文 参考訳(メタデータ) (2024-10-04T22:21:43Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering [64.6741991162092]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。
我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。
次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。
同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文 参考訳(メタデータ) (2023-10-08T04:44:36Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z) - Logic-Guided Data Augmentation and Regularization for Consistent
Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。
提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2020-04-21T17:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。