論文の概要: Synthetic Contrastive Reasoning for Multi-Table Q&A
- arxiv url: http://arxiv.org/abs/2606.05382v1
- Date: Wed, 03 Jun 2026 19:35:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.367075
- Title: Synthetic Contrastive Reasoning for Multi-Table Q&A
- Title(参考訳): マルチテーブルQ&Aのための合成コントラスト推論
- Authors: Ankit Pratap Singh, Xin Su, Phillip Howard,
- Abstract要約: マルチテーブルの質問応答には、関連するエビデンスを取得し、スキーマをリンクし、リレーショナルテーブルをまたいだ合成推論を実行するモデルが必要である。
既存のマルチテーブルのQ&Aリソースは、質問や最終回答を提供するが、どのように回答が導出されるかを説明する推論の監督が欠如している。
検証された正のトレースと有意な負のトレースを生成することで,MMQAのための合成コントラスト推論トレースデータセットを構築した。
- 参考スコア(独自算出の注目度): 10.316086760057429
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-table question answering requires models to retrieve relevant evidence, link schemas, and perform compositional reasoning across relational tables. Existing multi-table Q&A resources typically provide questions and final answers but lack reasoning supervision that explains how answers are derived. To address this gap, we construct a synthetic contrastive reasoning-trace dataset for MMQA by generating validated positive traces and plausible negative traces with heterogeneous LLMs. We then use the resulting preference pairs to fine-tune open-weight LLMs with Contrastive Preference Optimization (CPO). Across Qwen3-14B, Mistral-8B, and Llama-3.1-8B, CPO achieves absolute average improvements over Q&A supervised fine-tuning ranging from 9.7%-16.3%, with gains up to 21 percentage points on MMQA. Ablations show that heterogeneous positive and negative trace generators strengthen the contrastive signal, and automated as well as human evaluations indicate that the generated pairs are largely faithful, coherent, and meaningfully contrastive.
- Abstract(参考訳): マルチテーブルの質問応答には、関連するエビデンスを取得し、スキーマをリンクし、リレーショナルテーブルをまたいだ合成推論を実行するモデルが必要である。
既存のマルチテーブルのQ&Aリソースは、質問や最終回答を提供するが、どのように回答が導出されるかを説明する推論の監督が欠如している。
このギャップに対処するために、不均一なLLMを用いて検証された正のトレースと有意な負のトレースを生成することで、MMQAのための合成コントラスト推論トレースデータセットを構築した。
次に、提案した選好ペアを用いて、コントラスト優先最適化(CPO)を用いたオープンウェイトLLMを微調整する。
Qwen3-14B、Mistral-8B、Llama-3.1-8B全体で、CPOは9.7%から16.3%の範囲でQ&Aが監督する微調整よりも絶対的な平均的な改善を達成し、MMQAでは21ポイントまで上昇した。
アブレーションは、異質な正および負のトレースジェネレータがコントラスト信号を強化することを示し、自動的および人間の評価は、生成されたペアが大部分が忠実で、一貫性があり、有意義にコントラスト的であることを示している。
関連論文リスト
- Reasoning Matters: Mitigate Hallucination in Multimodal Large Reasoning Models via Reasoning-Conditioned Preference Optimization [59.20570719781289]
マルチモーダル大規模推論モデルは推論パラダイムを導入し、複雑な視覚言語タスクに強力な能力を示す。
既存のトレーニングベースの手法では、応答レベルの直接選好最適化(DPO)を通じて幻覚を緩和し、CoT(Chain-of-Thought)と最終回答をモノリシックな出力として扱い、協調的に最適化する。
我々は、応答生成条件としてCoTをモデル化し、異なるCoT条件下で同じ好みの回答を優先し、応答支持型推論連鎖アライメントを促進するReasoning-Conditioned Direct Preference Optimization (RC-DPO) を導出する。
論文 参考訳(メタデータ) (2026-05-27T03:27:23Z) - Scaling Trends for Multi-Hop Contextual Reasoning in Mid-Scale Language Models [0.0]
大規模言語モデルにおけるマルチホップ文脈推論の制御に関する研究について述べる。
マルチエージェントシステムは逆パターンを示し、ルールベースのメソッドが失敗する推論タスクを最大80%達成する。
論文 参考訳(メタデータ) (2026-01-06T20:18:55Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Internalizing Self-Consistency in Language Models: Multi-Agent Consensus Alignment [22.305033366660187]
言語モデル(LM)は矛盾する推論子であり、しばしば同じプロンプトに対する矛盾した応答を生成する。
適切に整合した推論モデルの本質的な性質として自己整合性を定式化し、MACA(Multi-Agent Consensus Alignment)を導入する。
MACAは、エージェントが自分自身をより決定的かつ簡潔に教えることを可能にし、外部の監督なしにマルチエージェント設定におけるピアインサイトをより活用する。
論文 参考訳(メタデータ) (2025-09-18T17:27:28Z) - Semantic Bridge: Universal Multi-Hop Question Generation via AMR-Driven Graph Synthesis [3.1427813443719868]
大きな言語モデル(LLM)のトレーニングは、高品質で推論集約的な質問応答ペアの不足という、重大なボトルネックに直面します。
textbfSemantic Bridgeは、任意の情報源から洗練されたマルチホップ推論質問を制御可能とする最初の普遍的フレームワークである。
論文 参考訳(メタデータ) (2025-08-06T10:59:42Z) - Escaping the SpuriVerse: Can Large Vision-Language Models Generalize Beyond Seen Spurious Correlations? [37.703287009808896]
微調整は、非重要特徴とターゲットラベルの間に急激な相関を引き起こす可能性がある。
実世界の視覚探索探索(VQA)ベンチマークにおいて,GPT-4oエラーを抽出してベンチマークを作成する。
SpuriVerse上で15のオープンソースLVLMを評価し、最先端のクローズドソースモデルでもかなり苦労していることを発見した。
論文 参考訳(メタデータ) (2025-06-23T06:11:43Z) - Language Model Preference Evaluation with Multiple Weak Evaluators [89.90733463933431]
PGEDは,複数のモデルに基づく評価器を用いて嗜好グラフを構築し,非循環的非競合性評価結果に対してこれらのグラフをアンサンブルし,デノテーズする手法である。
1)評価のためのモデルランキング、2)テスト時間スケーリングのための応答選択、3)モデル微調整のためのデータ選択である。
論文 参考訳(メタデータ) (2024-10-14T01:57:25Z) - LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs [61.57691505683534]
非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。
大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。
提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
論文 参考訳(メタデータ) (2024-09-23T06:42:21Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。