論文の概要: BIRDTurk: Adaptation of the BIRD Text-to-SQL Dataset to Turkish
- arxiv url: http://arxiv.org/abs/2602.03633v1
- Date: Tue, 03 Feb 2026 15:21:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.537073
- Title: BIRDTurk: Adaptation of the BIRD Text-to-SQL Dataset to Turkish
- Title(参考訳): BIRDTurk: BIRD Text-to-SQLデータセットのトルコへの適応
- Authors: Burak Aktaş, Mehmet Can Baytekin, Süha Kağan Köse, Ömer İlbilgi, Elif Özge Yılmaz, Çağrı Toraman, Bilge Kaan Görür,
- Abstract要約: 我々は、BIRDベンチマークの最初のトルコ適応であるBIRDTurkを紹介する。
BirderTurkは、スキーマ識別子をトルコ語に適応させる制御された翻訳パイプラインによって構築される。
我々は推論に基づくプロンプト、エージェント多段階推論、教師付き微調整を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-to-SQL systems have achieved strong performance on English benchmarks, yet their behavior in morphologically rich, low-resource languages remains largely unexplored. We introduce BIRDTurk, the first Turkish adaptation of the BIRD benchmark, constructed through a controlled translation pipeline that adapts schema identifiers to Turkish while strictly preserving the logical structure and execution semantics of SQL queries and databases. Translation quality is validated on a sample size determined by the Central Limit Theorem to ensure 95% confidence, achieving 98.15% accuracy on human-evaluated samples. Using BIRDTurk, we evaluate inference-based prompting, agentic multi-stage reasoning, and supervised fine-tuning. Our results reveal that Turkish introduces consistent performance degradation, driven by both structural linguistic divergence and underrepresentation in LLM pretraining, while agentic reasoning demonstrates stronger cross-lingual robustness. Supervised fine-tuning remains challenging for standard multilingual baselines but scales effectively with modern instruction-tuned models. BIRDTurk provides a controlled testbed for cross-lingual Text-to-SQL evaluation under realistic database conditions. We release the training and development splits to support future research.
- Abstract(参考訳): テキスト・トゥ・SQLシステムは、英語のベンチマークでは高いパフォーマンスを達成しているが、形態学的に豊かな低リソース言語におけるそれらの振る舞いは、ほとんど探索されていない。
我々は、BIRDベンチマークの最初のトルコ語適応であるBIRDTurkを紹介し、スキーマ識別子をトルコ語に適応させ、SQLクエリとデータベースの論理構造と実行セマンティクスを厳密に保存する制御された翻訳パイプラインを通して構築する。
翻訳品質は、中央限界理論によって決定されたサンプルサイズで検証され、95%の信頼性が保証され、人間の評価されたサンプルに対して98.15%の精度が達成される。
BIRDTurkを用いて、推論に基づくプロンプト、エージェント多段階推論、教師付き微調整を評価する。
以上の結果から,トルコ語はLLM事前学習における構造的言語的分岐と表現不足の両方によって一貫した性能劣化をもたらし,エージェント的推論はより強い言語間ロバスト性を示すことが明らかとなった。
改良された微調整は、標準的な多言語ベースラインでは難しいが、現代の命令調整モデルでは効果的にスケールできる。
BIRDTurkは、現実的なデータベース条件下での言語間テキスト-SQL評価のための制御されたテストベッドを提供する。
今後の研究を支援するため、トレーニングと開発を分割してリリースします。
関連論文リスト
- Beyond Literal Mapping: Benchmarking and Improving Non-Literal Translation Evaluation [57.11989521509119]
本稿では,特殊なサブエージェントを起動するリフレクティブコアエージェントを中心に,エージェント翻訳評価フレームワークを提案する。
実験の結果、RATEの有効性が示され、現在の測定値と比較して少なくとも3.2メタスコアの改善が達成された。
論文 参考訳(メタデータ) (2026-01-12T09:03:42Z) - TurkEmbed: Turkish Embedding Model on NLI & STS Tasks [0.0]
TurkEmbedは、既存のモデルを上回るように設計された新しいトルコ語埋め込みモデルである。
多様なデータセットと高度なトレーニング技術の組み合わせを利用しており、その中にはMathryoshka表現学習も含まれる。
現在の最先端モデルであるEmrecanを、All-NLI-TRとSTS-b-TRベンチマークで上回り、1-4%の改善を実現している。
論文 参考訳(メタデータ) (2025-11-11T15:54:52Z) - Turk-LettuceDetect: A Hallucination Detection Models for Turkish RAG Applications [0.0]
本稿では,トルコのRAGアプリケーションに特化して設計された幻覚検出モデルの最初のスイートであるTurk-LettuceDetectを紹介する。
これらのモデルは、質問応答、データ・トゥ・テキスト生成、要約タスクを含む17,790のインスタンスを含むRAGTruthベンチマークデータセットの機械翻訳バージョンでトレーニングされた。
実験の結果,ModernBERTをベースとしたモデルでは,F1スコアの0.7266が完全なテストセットで達成され,特に構造化タスクにおいて高い性能が得られた。
論文 参考訳(メタデータ) (2025-09-22T12:14:11Z) - ExCoT: Optimizing Reasoning for Text-to-SQL with Execution Feedback [49.21833666405111]
大規模言語モデル(LLM)は、多くの推論タスクにおいて優れているが、Chain-of-Thought(CoT)推論を活用する能力はいまだに未定である。
我々は,オープンソース LLM を反復的に最適化する新しいフレームワークである ExCoT を提案する。
論文 参考訳(メタデータ) (2025-03-25T18:17:36Z) - Fine-tuning Transformer-based Encoder for Turkish Language Understanding
Tasks [0.0]
トルコ語のためのTransformerベースのモデルとベースラインベンチマークを提供する。
我々は、トルコのBERTモデル、BERTurkを多くの下流タスクに微調整し、トルコのベンチマークデータセットで評価した。
論文 参考訳(メタデータ) (2024-01-30T19:27:04Z) - Benchmarking Procedural Language Understanding for Low-Resource
Languages: A Case Study on Turkish [2.396465363376008]
トルコの手続き文書について事例研究を行う。
まず、トルコのwikiHowにおけるチュートリアルの数を2000から52,000に拡張し、自動翻訳ツールを使用します。
我々は、コーパス上のいくつかのダウンストリームタスクを生成する。例えば、アクションのリンク、ゴール推論、要約などである。
論文 参考訳(メタデータ) (2023-09-13T03:42:28Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Dr.Spider: A Diagnostic Evaluation Benchmark towards Text-to-SQL
Robustness [115.66421993459663]
近年の研究では、テキスト・ツー・モデルはタスク固有の摂動に弱いことが示されている。
モデル診断のための包括的ロバスト性ベンチマークを提案する。
我々は、そのセット上の最先端モデルの診断研究を行う。
論文 参考訳(メタデータ) (2023-01-21T03:57:18Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。