論文の概要: AILS-NTUA at SemEval-2025 Task 8: Language-to-Code prompting and Error Fixing for Tabular Question Answering
- arxiv url: http://arxiv.org/abs/2503.00435v2
- Date: Fri, 07 Mar 2025 14:33:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:22:32.189965
- Title: AILS-NTUA at SemEval-2025 Task 8: Language-to-Code prompting and Error Fixing for Tabular Question Answering
- Title(参考訳): SemEval-2025 Task 8におけるAILS-NTUA: 言語からコードへのプロンプトと誤り修正
- Authors: Andreas Evangelatos, Giorgos Filandrianos, Maria Lymperaiou, Athanasios Voulodimos, Giorgos Stamou,
- Abstract要約: 本稿では,SemEval-2025 Task 8: Question Question Answering over Tabular Dataについて述べる。
このタスクは、DataBenchデータセットに基づいて評価され、構造化データに対する自然言語の質問に答えるLarge Language Modelsの機能を評価する。
自然言語クエリを実行可能なコードに変換するために,LLMを効果的に活用するシステムを提案する。
- 参考スコア(独自算出の注目度): 5.130890556960832
- License:
- Abstract: In this paper, we present our submission to SemEval-2025 Task 8: Question Answering over Tabular Data. This task, evaluated on the DataBench dataset, assesses Large Language Models' (LLMs) ability to answer natural language questions over structured data while addressing topic diversity and table size limitations in previous benchmarks. We propose a system that employs effective LLM prompting to translate natural language queries into executable code, enabling accurate responses, error correction, and interpretability. Our approach ranks first in both subtasks of the competition in the proprietary model category, significantly outperforming the organizer's baseline.
- Abstract(参考訳): 本稿では,SemEval-2025 Task 8: Question Answering over Tabular Dataについて述べる。
このタスクは、DataBenchデータセットに基づいて評価され、以前のベンチマークでトピックの多様性とテーブルサイズ制限に対処しながら、構造化データに対する自然言語の質問に答えるLarge Language Models(LLM)能力を評価する。
自然言語クエリを実行可能なコードに翻訳し,正確な応答,エラー訂正,解釈可能性を実現する。
我々のアプローチは、プロプライエタリなモデルカテゴリーにおける競合の両サブタスクで第1位であり、主催者のベースラインを大きく上回っている。
関連論文リスト
- PromptRefine: Enhancing Few-Shot Performance on Low-Resource Indic Languages with Example Selection from Related Example Banks [57.86928556668849]
大規模言語モデル(LLM)は、近ごろ、コンテキスト内学習(ICL)を通じて、印象的な数ショットの学習能力を実証した。
ICLのパフォーマンスは、数発のデモの選択に大きく依存しており、最も最適な例の選択は永続的な研究課題である。
本稿では,低リソースのIndic言語におけるICLの性能向上を目的とした,新しい代替最小化手法であるPromptRefineを提案する。
論文 参考訳(メタデータ) (2024-12-07T17:51:31Z) - Accurate and Regret-aware Numerical Problem Solver for Tabular Question Answering [29.384514074911955]
本研究では,大規模言語モデルを用いたTabLaPというモデルを提案する。
TabLaPは最先端のモデルよりもかなり正確であることを示し、2つのデータセットで解の精度を5.7%と5.8%改善した。
論文 参考訳(メタデータ) (2024-10-10T05:34:00Z) - INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [25.402797722575805]
インデックスQAベンチマーク(Indic QA Benchmark)は、インドの主要言語11言語を対象にした、文脈に基づく質問応答のためのデータセットである。
評価の結果,学習データに強い英語バイアスがあるため,低資源言語では弱い性能を示した。
また、入力を英語に翻訳して処理し、その結果をソース言語に変換して出力するTranslate Testパラダイムについても検討した。
論文 参考訳(メタデータ) (2024-07-18T13:57:16Z) - The Eval4NLP 2023 Shared Task on Prompting Large Language Models as
Explainable Metrics [36.52897053496835]
生成型大規模言語モデル (LLM) は、タスクに関連する最小あるいは全くの例でタスクを解く顕著な能力を示している。
Eval4NLP 2023共有タスクを導入し、参加者に対して機械翻訳(MT)と要約評価のためのプロンプトとスコア抽出について検討する。
本稿では,参加者のアプローチの概要を述べるとともに,MTと要約データセットの3つの言語対にまたがる新しい参照なしテストセットについて評価する。
論文 参考訳(メタデータ) (2023-10-30T17:55:08Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Bridging the Gap: Deciphering Tabular Data Using Large Language Model [4.711941969101732]
この研究は、テーブルベースの質問応答タスクへの大規模言語モデルの初めての応用である。
拡張言語モデルとのシームレスな統合のために,テーブルのシリアライズに特有なモジュールを設計しました。
論文 参考訳(メタデータ) (2023-08-23T03:38:21Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Ranking Clarification Questions via Natural Language Inference [25.433933534561568]
自然言語クエリが与えられた場合、質問を明確にする機械は、実用的な自然言語処理システムにおいて非常に有用である。
明確化質問のランク付けの課題として,あるポストの欠落に関連する明確化質問が,自然言語推論(NLI)の特別な事例とみなすことができる,という仮説を立てる。
我々は、この仮説を、NLIおよびMulti-NLIデータセットに基づいて微調整されたSiamese BERTモデルからの表現をモデルに組み込むことで検証する。
論文 参考訳(メタデータ) (2020-08-18T01:32:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。