論文の概要: Improving Demonstration Diversity by Human-Free Fusing for Text-to-SQL
- arxiv url: http://arxiv.org/abs/2402.10663v3
- Date: Wed, 26 Jun 2024 06:54:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 19:04:48.423984
- Title: Improving Demonstration Diversity by Human-Free Fusing for Text-to-SQL
- Title(参考訳): テキスト・トゥ・SQLのためのヒューマンフリー・フュージングによるデモの多様性向上
- Authors: Dingzirui Wang, Longxu Dou, Xuanliang Zhang, Qingfu Zhu, Wanxiang Che,
- Abstract要約: 本稿では,テキスト・ツー・ダイバーシティ研究における実証の多様性を計測し,改善する方法について論じる。
我々は,高多様性のデモンストレーションプールを構築するために,デモ(Fused)のために反復的に融合することを提案する。
本手法は,複数の主流データセットにラベルを付けることなく,平均3.2%と5.0%の改善を実現する。
- 参考スコア(独自算出の注目度): 51.48239006107272
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Currently, the in-context learning method based on large language models (LLMs) has become the mainstream of text-to-SQL research. Previous works have discussed how to select demonstrations related to the user question from a human-labeled demonstration pool. However, human labeling suffers from the limitations of insufficient diversity and high labeling overhead. Therefore, in this paper, we discuss how to measure and improve the diversity of the demonstrations for text-to-SQL. We present a metric to measure the diversity of the demonstrations and analyze the insufficient of the existing labeled data by experiments. Based on the above discovery, we propose fusing iteratively for demonstrations (Fused) to build a high-diversity demonstration pool through human-free multiple-iteration synthesis, improving diversity and lowering label cost. Our method achieves an average improvement of 3.2% and 5.0% with and without human labeling on several mainstream datasets, which proves the effectiveness of Fused.
- Abstract(参考訳): 現在,大規模言語モデル(LLM)に基づく文脈内学習法が,テキスト・トゥ・SQL研究の主流となっている。
これまで,人間ラベルのデモプールからユーザ質問に関連するデモを選択する方法について議論されてきた。
しかしながら、人間のラベル付けは多様性の不足と高いラベル付けオーバーヘッドの限界に悩まされている。
そこで本稿では,テキストからSQLへのデモンストレーションの多様性を計測し,改善する方法について論じる。
実験により,実証実験の多様性を測定し,既存のラベル付きデータの不十分さを解析する指標を提案する。
上記の発見に基づいて,人為的マルチイテレーション合成,多様性の向上,ラベルコストの低減を通じて,高多様性の実証プールを構築するための実証実験(Fused)を反復的に行うことを提案する。
本手法は,複数の主流データセット上でのラベル付けによる平均3.2%と5.0%の改善を実現し,Fusedの有効性を実証する。
関連論文リスト
- Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - Effects of diversity incentives on sample diversity and downstream model
performance in LLM-based text augmentation [6.647958966528349]
クラウドソーシングにおいて確立された3つのテキスト多様性インセンティブ手法について検討する。
タブー語によって多様性が最も増大することが示されるが、下流モデルの性能はヒントを伴って最高である。
論文 参考訳(メタデータ) (2024-01-12T15:46:43Z) - In-Context Demonstration Selection with Cross Entropy Difference [95.21947716378641]
大規模言語モデル(LLM)は、ゼロショットタスクのパフォーマンスを改善するためにコンテキスト内デモを使用することができる。
テキスト内デモを選択するためのクロスエントロピー差分法(CED)を提案する。
論文 参考訳(メタデータ) (2023-05-24T05:04:00Z) - Eliciting Compatible Demonstrations for Multi-Human Imitation Learning [16.11830547863391]
人間による実演からの模倣学習は、ロボット操作の学習ポリシーに対する強力なアプローチである。
自然の人間の行動は、タスクを示すのに最適な方法がいくつかあるため、多くの異種性を持っている。
このミスマッチは、インタラクティブな模倣学習の課題であり、ユーザのシーケンスは、新しい、おそらく矛盾するデモを反復的に収集することによって、ポリシーを改善する。
我々は、ポストホックフィルタリングにより互換性のないデモを識別し、新しいユーザから互換性のないデモを積極的に引き出すために互換性対策を適用することができることを示す。
論文 参考訳(メタデータ) (2022-10-14T19:37:55Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Informed Sampling for Diversity in Concept-to-Text NLG [8.883733362171034]
本稿では,言語生成モデルが確実に生成できる多様性のレベルを探索するために,Imitation Learningアプローチを提案する。
具体的には、任意のタイミングでどの単語が高品質な出力につながるかを識別するように訓練されたメタ分類器を用いて復号処理を強化する。
論文 参考訳(メタデータ) (2020-04-29T17:43:24Z) - Evaluating the Evaluation of Diversity in Natural Language Generation [43.05127848086264]
本稿では,自然言語生成システムにおける多様性指標を評価するためのフレームワークを提案する。
当社のフレームワークは,NLGシステムの改善に向けた重要なステップである,さまざまな多様性指標の理解を促進することができる。
論文 参考訳(メタデータ) (2020-04-06T20:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。