論文の概要: Uncovering the Impact of Chain-of-Thought Reasoning for Direct Preference Optimization: Lessons from Text-to-SQL
- arxiv url: http://arxiv.org/abs/2502.11656v1
- Date: Mon, 17 Feb 2025 10:47:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:10:05.974056
- Title: Uncovering the Impact of Chain-of-Thought Reasoning for Direct Preference Optimization: Lessons from Text-to-SQL
- Title(参考訳): 直接選好最適化におけるChain-of-Thought Reasoningの影響を明らかにする: Text-to-SQLからの教訓
- Authors: Hanbing Liu, Haoyang Li, Xiaokang Zhang, Ruotong Chen, Haiyong Xu, Tian Tian, Qi Qi, Jing Zhang,
- Abstract要約: 直接選好最適化(DPO)は、算術語問題やコード生成といった複雑な推論タスクに有効であることが証明されている。
しかし、Text-to-nativeデータセットに適用すると、DPOはパフォーマンス向上に失敗し、さらに劣化する可能性がある。
CoT(Synthetic Chain-of-Thought)ソリューションでText-to-nativeデータセットを拡張することで、初めて、一貫性と大幅なパフォーマンス向上を実現しました。
- 参考スコア(独自算出の注目度): 23.741969743203413
- License:
- Abstract: Direct Preference Optimization (DPO) has proven effective in complex reasoning tasks like math word problems and code generation. However, when applied to Text-to-SQL datasets, it often fails to improve performance and can even degrade it. Our investigation reveals the root cause: unlike math and code tasks, which naturally integrate Chain-of-Thought (CoT) reasoning with DPO, Text-to-SQL datasets typically include only final answers (gold SQL queries) without detailed CoT solutions. By augmenting Text-to-SQL datasets with synthetic CoT solutions, we achieve, for the first time, consistent and significant performance improvements using DPO. Our analysis shows that CoT reasoning is crucial for unlocking DPO's potential, as it mitigates reward hacking, strengthens discriminative capabilities, and improves scalability. These findings offer valuable insights for building more robust Text-to-SQL models. To support further research, we publicly release the code and CoT-enhanced datasets.
- Abstract(参考訳): 直接選好最適化(DPO)は、算術語問題やコード生成といった複雑な推論タスクに有効であることが証明されている。
しかし、Text-to-SQLデータセットに適用すると、しばしばパフォーマンスの改善に失敗し、さらに劣化する可能性がある。
数学やコードタスクとは異なり、自然にChain-of-Thought(CoT)推論をDPOと統合しているのに対し、Text-to-SQLデータセットは通常、CoTソリューションを詳細に含まない最終回答(金のSQLクエリ)のみを含む。
合成CoTソリューションでText-to-SQLデータセットを拡張することで、初めて、DPOを使用した一貫性と大幅なパフォーマンス向上を実現しました。
我々の分析によると、CoT推論はDPOの可能性を解き放ち、報酬のハッキングを軽減し、差別能力を強化し、スケーラビリティを向上させるために不可欠である。
これらの発見は、より堅牢なText-to-SQLモデルを構築する上で、貴重な洞察を提供する。
さらなる研究を支援するため、コードとCoT強化データセットを公開しています。
関連論文リスト
- Bridging the Gap: Enabling Natural Language Queries for NoSQL Databases through Text-to-NoSQL Translation [25.638927795540454]
自然言語クエリをアクセス可能なクエリに変換することを目的としたText-to-Noタスクを導入する。
この分野での研究を促進するために、我々はTEND(Text-to-Noデータセットのショートインターフェース)という、このタスクのための大規模かつオープンソースのデータセットをリリースした。
また,SLM(Small Language Model)支援とRAG(Retrieval-augmented Generation)支援の多段階フレームワークSMARTを設計した。
論文 参考訳(メタデータ) (2025-02-16T17:01:48Z) - Rationalization Models for Text-to-SQL [13.792561265515003]
本稿では,テキスト・ツー・シークレット・モデルの微調整を強化するために,CoT(Chain-of-Thought)論理を生成するフレームワークを提案する。
プロセスは、手動でサンプルの小さなセットをアノテートすることから始まり、その後、大きな言語モデルを促すために使用される。
その後、検証されたクエリに基づいて合理化モデルをトレーニングし、広範な合成CoTアノテーションを可能にする。
論文 参考訳(メタデータ) (2025-02-10T18:38:57Z) - PTD-SQL: Partitioning and Targeted Drilling with LLMs in Text-to-SQL [54.304872649870575]
大規模言語モデル(LLM)は、テキスト・トゥ・センス・タスクの強力なツールとして登場した。
本研究では,クエリグループパーティショニングを用いることで,単一問題に特有の思考プロセスの学習に集中できることを示す。
論文 参考訳(メタデータ) (2024-09-21T09:33:14Z) - DAC: Decomposed Automation Correction for Text-to-SQL [51.48239006107272]
De Automation Correction (DAC)を導入し、エンティティリンクとスケルトン解析を分解することでテキストから合成を補正する。
また,本手法では,ベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が平均3.7%向上することを示した。
論文 参考訳(メタデータ) (2024-08-16T14:43:15Z) - Beyond Text-to-SQL for IoT Defense: A Comprehensive Framework for Querying and Classifying IoT Threats [24.62442027542548]
本研究では,10,985対のテキスト・ツー・IoTと239,398行のネットワークトラフィックからなる新しいテキスト・ツー・IoTデータセットを提案する。
以上の結果から,データの検索と推測を行う共同トレーニングにより,テキスト・トゥ・IoT全体のパフォーマンスが向上することが示唆された。
論文 参考訳(メタデータ) (2024-06-25T14:14:35Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。