論文の概要: Analyzing LLM Instruction Optimization for Tabular Fact Verification
- arxiv url: http://arxiv.org/abs/2602.17937v1
- Date: Fri, 20 Feb 2026 01:56:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.20436
- Title: Analyzing LLM Instruction Optimization for Tabular Fact Verification
- Title(参考訳): タブラルファクト検証のためのLLM命令最適化の解析
- Authors: Xiaotang Du, Giwon Hong, Wai-Chung Kwan, Rohit Saxena, Ivan Titov, Pasquale Minervini, Emily Allaway,
- Abstract要約: テキストのみのプロンプトとコード使用の両方をカバーする4つのアウト・オブ・ザ・ボックスプロンプト技術を評価した。
命令の最適化は、常に精度を向上する。
より大きなモデルで構築されたReActエージェントは、競合する性能を達成することができるが、注意深い命令最適化が必要である。
- 参考スコア(独自算出の注目度): 31.323126890238996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction optimization provides a lightweight, model-agnostic approach to enhancing the reasoning performance of large language models (LLMs). This paper presents the first systematic comparison of instruction optimization, based on the DSPy optimization framework, for tabular fact verification. We evaluate four out-of-the-box prompting techniques that cover both text-only prompting and code use: direct prediction, Chain-of-Thought (CoT), ReAct with SQL tools, and CodeAct with Python execution. We study three optimizers from the DSPy framework -- COPRO, MiPROv2, and SIMBA -- across four benchmarks and three model families. We find that instruction optimization consistently improves verification accuracy, with MiPROv2 yielding the most stable gains for CoT, and SIMBA providing the largest benefits for ReAct agents, particularly at larger model scales. Behavioral analyses reveal that SIMBA encourages more direct reasoning paths by applying heuristics, thereby improving numerical comparison abilities in CoT reasoning and helping avoid unnecessary tool calls in ReAct agents. Across different prompting techniques, CoT remains effective for tabular fact checking, especially with smaller models. Although ReAct agents built with larger models can achieve competitive performance, they require careful instruction optimization.
- Abstract(参考訳): 命令最適化は、大規模言語モデル(LLM)の推論性能を高めるために、軽量でモデルに依存しないアプローチを提供する。
本稿では, DSPy最適化フレームワークをベースとして, 命令の最適化に関する最初の体系的比較を行った。
我々は、直接予測、CoT(Chain-of-Thought)、SQLツールのReAct、Python実行のCodeActという、テキストのみのプロンプトとコード使用の両方をカバーする4つのアウト・オブ・ザ・ボックスプロンプト技術を評価した。
DSPyフレームワーク(COPRO, MiPROv2, SIMBA)から4つのベンチマークと3つのモデルファミリを比較検討した。
MiPROv2はCoTの最も安定したゲインとなり、SIMBAはReActエージェント、特に大規模なモデルスケールの最大のメリットを提供する。
行動分析により、SIMBAはヒューリスティックスを適用し、CoT推論における数値比較能力を向上し、ReActエージェントの不要なツールコールを回避することにより、より直接的な推論パスを促進することが明らかになった。
異なるプロンプト技術全体で、CoTは特に小さなモデルで、表の事実チェックに有効である。
より大きなモデルで構築されたReActエージェントは、競合する性能を達成することができるが、注意深い命令最適化が必要である。
関連論文リスト
- ECCO: Evidence-Driven Causal Reasoning for Compiler Optimization [9.85275171877854]
検索で解釈可能な推論をブリッジするフレームワークであるECCOを紹介する。
本稿ではまず,Chain-of-Thoughtデータセットを構築するためのリバースエンジニアリング手法を提案する。
次に,大規模言語モデルがストラテジストとして機能する協調推論機構を設計する。
論文 参考訳(メタデータ) (2026-01-23T01:23:20Z) - BRIDGE: Building Representations In Domain Guided Program Verification [67.36686119518441]
BRIDGEは、検証をコード、仕様、証明の3つの相互接続ドメインに分解する。
提案手法は, 標準誤差フィードバック法よりも精度と効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-11-26T06:39:19Z) - TableMind: An Autonomous Programmatic Agent for Tool-Augmented Table Reasoning [10.267950603662776]
TableMindは、データ分析と正確な数値推論のために、セキュアなサンドボックス環境で、マルチターンツールの実行、書き込み、実行を自律的に実行する、ツール統合テーブル推論エージェントである。
これらの機能を実現するために、我々は強力な事前学習言語モデルの上に構築された2段階の微調整パラダイムを採用する。
論文 参考訳(メタデータ) (2025-09-08T02:00:31Z) - Shadow-FT: Tuning Instruct Model via Training on Paired Base Model [67.20706292627106]
大規模言語モデル(LLM)は、様々なタスクのさらなる微調整の恩恵を一貫して受けている。
本稿では,対応するベースモデルを活用してインストラクタモデルをチューニングするための新しいシャドウ-FTフレームワークを提案する。
提案するShadow-FTは,追加パラメータを導入せず,実装が容易で,性能が大幅に向上する。
論文 参考訳(メタデータ) (2025-05-19T05:16:21Z) - Towards Efficient Optimizer Design for LLM via Structured Fisher Approximation with a Low-Rank Extension [16.037614012166063]
本稿では,Fisher InformationMatrix (FIM) のレンズによる効率的な近似の体系設計に向けて一歩進める。
我々は、多くの最先端の効率的な近似を(フロベニウスノルムの下で)特定の構造的仮定を持つFIMの解と見なせることを示した。
一般性と効率性のバランスをとるための構造的仮定を慎重に選択することを含む,LLMの実用的効率に関する2つの設計勧告を提案する。
論文 参考訳(メタデータ) (2025-02-11T18:27:19Z) - Instruction-Following Pruning for Large Language Models [58.329978053711024]
我々は、モデルに対する固定的なプルーニングマスクを決定する従来の静的プルーニングアプローチを超えて移動する。
本手法では,プルーニングマスクは入力依存型であり,ユーザ命令に記述された情報に基づいて動的に適応する。
我々の手法は「命令追従プルーニング」と呼ばれ、ユーザ命令を入力とし、与えられたタスクに対して最も関連性の高いモデルパラメータを動的に選択するスパースマスク予測器を導入している。
論文 参考訳(メタデータ) (2025-01-03T20:19:14Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - PerfRL: A Small Language Model Framework for Efficient Code Optimization [14.18092813639534]
本稿では,コード最適化の問題に対処する革新的なフレームワークPerfRLを紹介する。
我々のフレームワークは、小型言語モデル(SLM)と強化学習(RL)の機能を活用している。
提案手法は,より短いトレーニング時間とより小さな事前学習モデルを用いて,最先端モデルと比較して,類似あるいはより良い結果が得られる。
論文 参考訳(メタデータ) (2023-12-09T19:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。