論文の概要: Skeletons Matter: Dynamic Data Augmentation for Text-to-Query
- arxiv url: http://arxiv.org/abs/2511.18934v1
- Date: Mon, 24 Nov 2025 09:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.141915
- Title: Skeletons Matter: Dynamic Data Augmentation for Text-to-Query
- Title(参考訳): Skeletonsが重要: テキストからクエリへの動的データ拡張
- Authors: Yuchen Ji, Bo Xu, Jie Shi, Jiaqing Liang, Deqing Yang, Yu Mao, Hai Chen, Yanghua Xiao,
- Abstract要約: テキスト・ツー・クエリー・タスク・パラダイムを正式に定義し、様々なクエリー言語にまたがるセマンティック・パース・タスクを統一する。
問合せスケルトンをText-to-Queryタスクの共有最適化ターゲットとして同定し、一般的な動的データ拡張フレームワークを提案する。
4つのText-to-Queryベンチマーク実験により,本手法が最先端の性能を実現することを示す。
- 参考スコア(独自算出の注目度): 66.52311036179294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of translating natural language questions into query languages has long been a central focus in semantic parsing. Recent advancements in Large Language Models (LLMs) have significantly accelerated progress in this field. However, existing studies typically focus on a single query language, resulting in methods with limited generalizability across different languages. In this paper, we formally define the Text-to-Query task paradigm, unifying semantic parsing tasks across various query languages. We identify query skeletons as a shared optimization target of Text-to-Query tasks, and propose a general dynamic data augmentation framework that explicitly diagnoses model-specific weaknesses in handling these skeletons to synthesize targeted training data. Experiments on four Text-to-Query benchmarks demonstrate that our method achieves state-of-the-art performance using only a small amount of synthesized data, highlighting the efficiency and generality of our approach and laying a solid foundation for unified research on Text-to-Query tasks. We release our code at https://github.com/jjjycaptain/Skeletron.
- Abstract(参考訳): 自然言語の質問をクエリ言語に翻訳する作業は、長い間セマンティック解析に重点を置いてきた。
近年のLarge Language Models (LLM) の進歩はこの分野の進歩を著しく加速している。
しかし、既存の研究は単一のクエリ言語に重点を置いており、結果として様々な言語にまたがる限定的な一般化性を持つ手法が生み出されている。
本稿では,テキスト・ツー・クエリー・タスク・パラダイムを正式に定義し,様々なクエリー言語にまたがるセマンティック・パース・タスクを統一する。
問合せスケルトンをText-to-Queryタスクの共有最適化ターゲットとして同定し、これらのスケルトンを扱う際のモデル固有の弱点を明確に診断し、ターゲットとするトレーニングデータを合成する一般的な動的データ拡張フレームワークを提案する。
4つのText-to-Queryベンチマーク実験により,本手法は少数の合成データのみを用いて最先端の性能を達成し,提案手法の効率性と汎用性を強調し,テキスト-to-Queryタスクの統一的な研究のための基盤を構築した。
コードについてはhttps://github.com/jjjycaptain/Skeletron.comで公開しています。
関連論文リスト
- The Cross-Lingual Cost: Retrieval Biases in RAG over Arabic-English Corpora [5.0908395672023055]
言語間検索強化生成(RAG)は、言語間で回答を検索し、生成する重要な能力である。
我々は、実世界の企業データセットから得られたベンチマークを用いて、アラビア語のRAGをドメイン固有の設定で研究する。
両言語から等価な検索を強制したり、クエリを翻訳することで、この失敗の原因に対処する2つの簡単な検索戦略を提案する。
論文 参考訳(メタデータ) (2025-07-10T08:38:31Z) - LiveLongBench: Tackling Long-Context Understanding for Spoken Texts from Live Streams [4.917265821383127]
実世界のシナリオの冗長性に富む会話の性質を反映した,ライブストリームから派生した最初の音声長文データセットを構築した。
我々は、これらのタスクにおける長文理解能力を評価するために、人気のあるLLMと特殊手法の両方を評価した。
本研究は,現在の手法の限界を浮き彫りにし,長文理解の改善に向けた今後の方向性を示唆するものである。
論文 参考訳(メタデータ) (2025-04-24T08:27:48Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Compositional Semantic Parsing with Large Language Models [27.627684573915147]
我々はより大きな語彙を持つより現実的な意味解析タスクにおける課題を特定する。
我々の最良の方法は最短のプロンプトに基づいている。
同様の取り組みが、他のタスクやドメインで新たな結果をもたらすことを期待しています。
論文 参考訳(メタデータ) (2022-09-29T17:58:28Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。