論文の概要: Text2Cypher: Data Pruning using Hard Example Selection
- arxiv url: http://arxiv.org/abs/2505.05122v1
- Date: Thu, 08 May 2025 10:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.850173
- Title: Text2Cypher: Data Pruning using Hard Example Selection
- Title(参考訳): Text2Cypher:ハードケース選択によるデータ処理
- Authors: Makbule Gulcin Ozsoy,
- Abstract要約: 大規模言語モデル(LLM)は、Text2やText2Cypherといったモデルを通じて、データベースとの自然言語インタラクションを可能にする。
これらのモデルを微調整するには、通常、非自明な例を含む大規模で多様なデータセットが必要である。
本稿では,Text2Cypherデータセットを抽出するための5つのハードサンプル選択手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Database query languages such as SQL for relational databases and Cypher for graph databases have been widely adopted. Recent advancements in large language models (LLMs) enable natural language interactions with databases through models like Text2SQL and Text2Cypher. Fine-tuning these models typically requires large, diverse datasets containing non-trivial examples. However, as dataset size increases, the cost of fine-tuning also rises. This makes smaller, high-quality datasets essential for reducing costs for the same or better performance. In this paper, we propose five hard-example selection techniques for pruning the Text2Cypher dataset, aiming to preserve or improve performance while reducing resource usage. Our results show that these hard-example selection approaches can halve training time and costs with minimal impact on performance, and demonstrates that hard-example selection provides a cost-effective solution.
- Abstract(参考訳): リレーショナルデータベース用SQLやグラフデータベース用Cypherなどのデータベースクエリ言語が広く採用されている。
大規模言語モデル(LLM)の最近の進歩は、Text2SQLやText2Cypherのようなモデルを通じて、データベースとの自然言語インタラクションを可能にする。
これらのモデルを微調整するには、通常、非自明な例を含む大規模で多様なデータセットが必要である。
しかし、データセットのサイズが大きくなると、微調整のコストも上昇する。
これにより、同じまたはより良いパフォーマンスのコストを削減するために、より小さく高品質なデータセットが不可欠になる。
本稿では,Text2Cypherデータセットを刈り取るための5つのハードサンプル選択手法を提案する。
以上の結果から、これらのハードサンプル選択アプローチは、トレーニング時間とコストを半分にすることができ、パフォーマンスへの影響を最小限に抑え、ハードサンプル選択がコスト効率の高いソリューションを提供することを示した。
関連論文リスト
- Text2Cypher: Bridging Natural Language and Graph Databases [0.3774866290142281]
Text2Cypherは、自然言語クエリをCypherクエリ言語に変換することで、このギャップを埋めることを目指している。
公開されているいくつかのデータセットを合計44,387のインスタンスに組み合わせ、整理し、整理した方法について説明している。
論文 参考訳(メタデータ) (2024-12-13T11:50:51Z) - RB-SQL: A Retrieval-based LLM Framework for Text-to-SQL [48.516004807486745]
文脈内学習を伴う大規模言語モデル(LLM)は、テキスト・ツー・タスクの性能を大幅に改善した。
In-context prompt Engineering のための新しい検索ベースフレームワーク RB- を提案する。
実験により,我々のモデルは,公開データセットのBIRDとSpiderの競合ベースラインよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-07-11T08:19:58Z) - CHESS: Contextual Harnessing for Efficient SQL Synthesis [1.9506402593665235]
効率的でスケーラブルなテキスト・ツー・クエリのためのフレームワークであるCHESSを紹介します。
特殊エージェントは4つあり、それぞれが上記の課題の1つをターゲットにしている。
私たちのフレームワークは、さまざまなデプロイメント制約に適応する機能を提供する。
論文 参考訳(メタデータ) (2024-05-27T01:54:16Z) - Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - SPSQL: Step-by-step Parsing Based Framework for Text-to-SQL Generation [13.196264569882777]
現在の主流のエンド・ツー・エンドのText2モデルは、複雑な構造とトレーニングデータに対する高い要求のために構築が困難であるだけでなく、大量のパラメータのために調整も困難である。
本稿では,所望の結果を得るために,SP実験というパイプライン手法を提案する。
我々は,中国のステートグリッドコーポレーションのマーケティングビジネスデータに基づくデータセットを構築した。
論文 参考訳(メタデータ) (2023-05-10T10:01:36Z) - Deep Learning Driven Natural Languages Text to SQL Query Conversion: A
Survey [2.309914459672557]
本稿では,近年研究されている24のニューラルネットワークモデルについて概観する。
TEXT2技術のモデルのトレーニングに広く使用されている11のデータセットの概要も紹介する。
論文 参考訳(メタデータ) (2022-08-08T20:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。