論文の概要: ITUNLP at SemEval-2025 Task 8: Question-Answering over Tabular Data: A Zero-Shot Approach using LLM-Driven Code Generation
- arxiv url: http://arxiv.org/abs/2508.00762v1
- Date: Fri, 01 Aug 2025 16:38:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.959953
- Title: ITUNLP at SemEval-2025 Task 8: Question-Answering over Tabular Data: A Zero-Shot Approach using LLM-Driven Code Generation
- Title(参考訳): IUNLP at SemEval-2025 Task 8: Question-Answering over Tabular Data: A Zero-Shot Approach using LLM-Driven Code Generation (英語)
- Authors: Atakan Site, Emre Hakan Erdemir, Gülşen Eryiğit,
- Abstract要約: 本稿では,SemEval-2025 Task 8: DataBench, Question-Answering over Tabular Dataについて述べる。
我々は、LLM(Large Language Model)ベースのコード生成を活用することに焦点を当てたゼロショットソリューションを開発した。
我々のシステムはSubtask Iでは8位、Subtask IIでは6位となり、オープンソースのモデルカテゴリーではベースラインを上回りました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents our system for SemEval-2025 Task 8: DataBench, Question-Answering over Tabular Data. The primary objective of this task is to perform question answering on given tabular datasets from diverse domains under two subtasks: DataBench QA (Subtask I) and DataBench Lite QA (Subtask II). To tackle both subtasks, we developed a zero-shot solution with a particular emphasis on leveraging Large Language Model (LLM)-based code generation. Specifically, we propose a Python code generation framework utilizing state-of-the-art open-source LLMs to generate executable Pandas code via optimized prompting strategies. Our experiments reveal that different LLMs exhibit varying levels of effectiveness in Python code generation. Additionally, results show that Python code generation achieves superior performance in tabular question answering compared to alternative approaches. Although our ranking among zero-shot systems is unknown at the time of this paper's submission, our system achieved eighth place in Subtask I and sixth place in Subtask~II among the 30 systems that outperformed the baseline in the open-source models category.
- Abstract(参考訳): 本稿では,SemEval-2025 Task 8: DataBench, Question-Answering over Tabular Dataについて述べる。
このタスクの主な目的は、データベンチQA(Subtask I)とデータベンチライトQA(Subtask II)の2つのサブタスクの下で、様々なドメインから与えられた表付きデータセットに対して質問応答を行うことである。
両方のサブタスクに対処するために,LLM(Large Language Model)ベースのコード生成を活用することを重視したゼロショットソリューションを開発した。
具体的には、最先端のオープンソースLLMを利用して、最適化されたプロンプト戦略により実行可能なPandasコードを生成するPythonコード生成フレームワークを提案する。
実験の結果,Python コード生成において,異なる LLM が様々な効率性を示すことがわかった。
さらに,Pythonのコード生成は,代替手法と比較して,表形式の質問応答において優れた性能を発揮することを示す。
本論文の提出時点ではゼロショットシステムのランキングは分かっていないが,オープンソースモデルカテゴリのベースラインを上回った30システムのうち,Subtask Iでは8位,Subtask~IIでは6位にランクインした。
関連論文リスト
- On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。
コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文 参考訳(メタデータ) (2025-07-22T13:40:26Z) - Team Anotheroption at SemEval-2025 Task 8: Bridging the Gap Between Open-Source and Proprietary LLMs in Table QA [5.559427430890753]
本稿では,SemEval 2025 Task 8: Question Answering (QA) をテーブル上に構築するシステムを提案する。
提案手法は,テキストからコードへの生成モジュール,自己補正機構,検索拡張生成(RAG)など,いくつかの重要なコンポーネントを統合している。
評価段階では,提案手法は80%の精度を達成し,38チーム中13位にランクインした。
論文 参考訳(メタデータ) (2025-06-11T12:26:08Z) - MRT at SemEval-2025 Task 8: Maximizing Recovery from Tables with Multiple Steps [0.157286095422595]
textitSemEval 2025 Task 8: Question-Answering over Tabular Data Challenge。
我々の戦略は、LLMを使ったPythonコード生成を利用してテーブルと対話し、質問に対する回答を得る。
論文 参考訳(メタデータ) (2025-05-28T11:50:22Z) - AILS-NTUA at SemEval-2025 Task 8: Language-to-Code prompting and Error Fixing for Tabular Question Answering [5.130890556960832]
本稿では,SemEval-2025 Task 8: Question Question Answering over Tabular Dataについて述べる。
このタスクは、DataBenchデータセットに基づいて評価され、構造化データに対する自然言語の質問に答えるLarge Language Modelsの機能を評価する。
自然言語クエリを実行可能なコードに変換するために,LLMを効果的に活用するシステムを提案する。
論文 参考訳(メタデータ) (2025-03-01T10:24:42Z) - Tabular Transfer Learning via Prompting LLMs [52.96022335067357]
大規模言語モデル(LLM)を用いたラベル付き(あるいは異種)ソースデータを利用した新しいフレームワークPrompt to Transfer (P2T)を提案する。
P2Tは、ターゲットタスク機能と強く相関しているソースデータセットの列の特徴を特定し、ターゲットタスクに関連する例を作成し、プロンプトの擬似宣言を生成する。
論文 参考訳(メタデータ) (2024-08-09T11:30:52Z) - PyBench: Evaluating LLM Agent on various real-world coding tasks [13.347173063163138]
PyBenchは、現実世界のタスクの5つの主要なカテゴリをカバーするベンチマークで、10種類以上のファイルをカバーする。
我々の評価は、現在のオープンソースLLMがこれらのタスクに苦戦していることを示している。
微調整された8Bサイズモデル: textbfPyLlama3はPyBench上でエキサイティングなパフォーマンスを実現します。
論文 参考訳(メタデータ) (2024-07-23T15:23:14Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - An Automatic Prompt Generation System for Tabular Data Tasks [3.117741687220381]
大規模言語モデル(LLM)は、慎重に構築されたプロンプトを通じて、いくつかのタスクでその能力を実証している。
本稿では,複数のLDMに適した革新的オートプロンプト生成システムを提案する。
論文 参考訳(メタデータ) (2024-05-09T08:32:55Z) - TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [51.66718740300016]
TableLLMは80億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。
TableLLMはデータ操作タスクを巧みに扱うために構築されている。
我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文 参考訳(メタデータ) (2024-03-28T11:21:12Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。