Fugu-MT 論文翻訳(概要): MRT at SemEval-2025 Task 8: Maximizing Recovery from Tables with Multiple Steps

論文の概要: MRT at SemEval-2025 Task 8: Maximizing Recovery from Tables with Multiple Steps

arxiv url: http://arxiv.org/abs/2505.22264v1
Date: Wed, 28 May 2025 11:50:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.582637
Title: MRT at SemEval-2025 Task 8: Maximizing Recovery from Tables with Multiple Steps
Title（参考訳）: SemEval-2025 Task 8でのMRT:複数のステップを持つテーブルからのリカバリの最大化
Authors: Maximiliano Hormazábal Lagos, Álvaro Bueno Saez, Héctor Cerezo-Costas, Pedro Alonso Doval, Jorge Alcalde Vesteiro,
Abstract要約: textitSemEval 2025 Task 8: Question-Answering over Tabular Data Challenge。我々の戦略は、LLMを使ったPythonコード生成を利用してテーブルと対話し、質問に対する回答を得る。
参考スコア（独自算出の注目度）: 0.157286095422595
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper we expose our approach to solve the \textit{SemEval 2025 Task 8: Question-Answering over Tabular Data} challenge. Our strategy leverages Python code generation with LLMs to interact with the table and get the answer to the questions. The process is composed of multiple steps: understanding the content of the table, generating natural language instructions in the form of steps to follow in order to get the answer, translating these instructions to code, running it and handling potential errors or exceptions. These steps use open source LLMs and fine grained optimized prompts for each task (step). With this approach, we achieved a score of $70.50\%$ for subtask 1.
Abstract（参考訳）: 本稿では,<textit{SemEval 2025 Task 8: Question-Answering over Tabular Data}の課題を解決するためのアプローチを明らかにする。我々の戦略は、LLMを使ったPythonコード生成を利用してテーブルと対話し、質問に対する回答を得る。プロセスは、テーブルの内容を理解し、答えを得るためのステップの形で自然言語命令を生成し、これらの命令をコードに翻訳し、実行し、潜在的なエラーや例外を処理する。これらのステップでは、オープンソースのLLMと、各タスク(ステップ)に対してきめ細かい最適化されたプロンプトを使用します。このアプローチにより,サブタスク 1 に対して 70.50 % のスコアを得た。

関連論文リスト

ITUNLP at SemEval-2025 Task 8: Question-Answering over Tabular Data: A Zero-Shot Approach using LLM-Driven Code Generation [0.0]
本稿では,SemEval-2025 Task 8: DataBench, Question-Answering over Tabular Dataについて述べる。我々は、LLM(Large Language Model)ベースのコード生成を活用することに焦点を当てたゼロショットソリューションを開発した。我々のシステムはSubtask Iでは8位、Subtask IIでは6位となり、オープンソースのモデルカテゴリーではベースラインを上回りました。
論文参考訳（メタデータ） (2025-08-01T16:38:18Z)
MRT at IberLEF-2025 PRESTA Task: Maximizing Recovery from Tables with Multiple Steps [0.157286095422595]
本稿では,IberLEF 2025 Task PRESTA: Questions and Answers about Tables in Spanishについて述べる。 LLMを用いてPythonのコード生成を実装し,テーブルのフィルタリングと処理を行う。このアプローチでは、タスクの精度スコアが85%に達しました。
論文参考訳（メタデータ） (2025-07-17T10:33:36Z)
Program of Equations Thoughts to Solve Algebra Word Problems [0.0]
方程式のプログラム(Program of Equations Thoughts)は、解を推論するタスクを、方程式を予測し、コードを生成する2段階のタスクに変換する。 PENデータセットとALG514データセットの95.3%と98.0%の精度を実現し,SOTA(State-of-the-art)を新たに設定した。ゼロショットPOETは、DRAW-1Kデータセットで95.5%のSOTA結果も達成している。
論文参考訳（メタデータ） (2025-05-26T16:12:04Z)
Accurate and Regret-aware Numerical Problem Solver for Tabular Question Answering [29.384514074911955]
本研究では,大規模言語モデルを用いたTabLaPというモデルを提案する。 TabLaPは最先端のモデルよりもかなり正確であることを示し、2つのデータセットで解の精度を5.7%と5.8%改善した。
論文参考訳（メタデータ） (2024-10-10T05:34:00Z)
BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文参考訳（メタデータ） (2024-06-22T15:52:04Z)
Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。 CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文参考訳（メタデータ） (2024-04-23T12:16:05Z)
MFORT-QA: Multi-hop Few-shot Open Rich Table Question Answering [3.1651118728570635]
今日の急成長する業界では、専門家は大量の文書を要約し、毎日重要な情報を抽出するという課題に直面している。この課題に対処するために、テーブル質問回答(QA)のアプローチを開発し、関連する情報を抽出した。近年のLarge Language Models (LLMs) の進歩により,プロンプトを用いて表データから情報を取り出す新たな可能性が高まっている。
論文参考訳（メタデータ） (2024-03-28T03:14:18Z)
Fine-tuning Large Language Models with Sequential Instructions [2.546845645875049]
既存の命令調整モデルでは、複数の命令でクエリに応答するのに苦労していることがわかった。我々は、微調整データの一部がシーケンシャルに関連したタスクの連鎖を含むべきであると論じる。既存のデータセットの命令を多種多様な複雑なシーケンシャルな命令に変換することで、このプロセスを自動化する。逐次指導チューニングを行ったモデルでは、符号化、数学、オープンエンド生成の結果が改善された。
論文参考訳（メタデータ） (2024-03-12T16:33:30Z)
TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。 1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文参考訳（メタデータ） (2023-12-14T15:37:04Z)
Instances Need More Care: Rewriting Prompts for Instances with LLMs in the Loop Yields Better Zero-Shot Performance [11.595274304409937]
大規模言語モデル(LLM)はゼロショットタスクのパフォーマンスに革命をもたらした。レッツ・シンク・バイ・ステップ(Let's Think by Step)」のようなトリガーフレーズを使った現在の手法は依然として限られている。本研究では,タスクインスタンスのゼロショットプロンプトを最適化するPRomPTedを導入する。
論文参考訳（メタデータ） (2023-10-03T14:51:34Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)
Learning to Plan with Natural Language [111.76828049344839]
大規模言語モデル(LLM)は、様々な基本自然言語タスクにおいて顕著な性能を示している。複雑なタスクを完了するためには、ステップごとに特定のソリューションを生成するためにLCMをガイドするタスクの計画が必要です。本研究では,(1)第1学習課題計画フェーズにおいて,LCMが学習エラーフィードバックから導出するように促した新たなステップバイステップのソリューションと行動指示を用いてタスク計画を反復的に更新する,という2つの段階を含む学習計画手法を提案する。
論文参考訳（メタデータ） (2023-04-20T17:09:12Z)
From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models [111.42052290293965]
大規模言語モデル(LLM)は、新しい言語タスクに対して優れたゼロショット一般化を証明している。視覚と言語データに対するエンドツーエンドのトレーニングは、切断を橋渡しするかもしれないが、柔軟性がなく、計算コストがかかる。上述したモダリティとタスクの切断をブリッジできるプロンプトを提供するプラグイン・アンド・プレイモジュールであるemphImg2Promptを提案する。
論文参考訳（メタデータ） (2022-12-21T08:39:36Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。