Fugu-MT 論文翻訳(概要): Exploring Performance Contrasts in TableQA: Step-by-Step Reasoning Boosts Bigger Language Models, Limits Smaller Language Models

論文の概要: Exploring Performance Contrasts in TableQA: Step-by-Step Reasoning Boosts Bigger Language Models, Limits Smaller Language Models

arxiv url: http://arxiv.org/abs/2411.16002v1
Date: Sun, 24 Nov 2024 22:48:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.658397
Title: Exploring Performance Contrasts in TableQA: Step-by-Step Reasoning Boosts Bigger Language Models, Limits Smaller Language Models
Title（参考訳）: TableQAにおけるパフォーマンスコントラストの探索: ステップバイステップ推論は大きな言語モデルを強化し、より小さな言語モデルを制限する
Authors: Haoyan Yang, Yixuan Wang, Keyue Tong, Hongjin Zhu, Yuanxin Zhang,
Abstract要約: 本稿では,大小言語モデル(LM)の性能コントラストを検討するために,テーブル論理(Table-Logic)と呼ばれる詳細なプロンプトフローを提案する。本手法の展開により,Llama-3-70Bのような大型LMにおいて,HybridQA上のバニラに比べて7.8%の精度向上が見られた。本研究は,小型モデルにおけるステップ・バイ・ステップの推論手法の限界を浮き彫りにし,改善のための潜在的洞察を提供するものである。
参考スコア（独自算出の注目度）: 6.083393426133172
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper proposes a detailed prompting flow, termed Table-Logic, to investigate the performance contrasts between bigger and smaller language models (LMs) utilizing step-by-step reasoning methods in the TableQA task. The method processes tasks by sequentially identifying critical columns and rows given question and table with its structure, determining necessary aggregations, calculations, or comparisons, and finally inferring the results to generate a precise prediction. By deploying this method, we observe a 7.8% accuracy improvement in bigger LMs like Llama-3-70B compared to the vanilla on HybridQA, while smaller LMs like Llama-2-7B shows an 11% performance decline. We empirically investigate the potential causes of performance contrasts by exploring the capabilities of bigger and smaller LMs from various dimensions in TableQA task. Our findings highlight the limitations of the step-by-step reasoning method in small models and provide potential insights for making improvements.
Abstract（参考訳）: 本稿では,TableQAタスクにおけるステップ・バイ・ステップの推論手法を用いて,大規模言語モデルと小規模言語モデル(LM)のパフォーマンスコントラストを詳細に検討するために,テーブル論理と呼ばれるプロンプトフローを提案する。この方法は、与えられた質問や列をその構造で逐次識別し、必要な集計、計算、比較を決定し、最終的に結果を推測して正確な予測を生成する。その結果,Llama-3-70BはHybridQA上のバニラに比べて精度が7.8%向上し,Llama-2-7Bのような小型のLMは11%の性能低下を示した。本研究では,TableQAタスクの様々な次元から,大規模かつ小型のLMの機能を探索することにより,パフォーマンスコントラストの潜在的な原因を実証的に検討する。本研究は,小型モデルにおけるステップ・バイ・ステップの推論手法の限界を浮き彫りにし,改善のための潜在的洞察を提供するものである。

関連論文リスト

NeedleInATable: Exploring Long-Context Capability of Large Language Models towards Long-Structured Tables [32.9031799179503]
textscNeedleInATable (NIAT)は、各テーブルセルを針として扱い、セルの位置やルックアップ質問に基づいてターゲットセルを抽出するモデルを必要とする。私たちのデータ、コード、モデルは、将来の研究を促進するためにリリースされます。
論文参考訳（メタデータ） (2025-04-09T03:46:56Z)
Rethinking Data: Towards Better Performing Domain-Specific Small Language Models [0.0]
本稿では,小言語モデル(LM)の微調整について述べる。 LMトレーニングパイプラインの各段階でのデータ品質を改善することで、これを実現する。我々は、異なるデータサブセット上の異なるパラメータで微調整されたモデルをマージすることで、モデル一般化能力を向上させる。
論文参考訳（メタデータ） (2025-03-03T12:19:12Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Interpretable LLM-based Table Question Answering [5.484058026469263]
Plan-of-s (POS) は、モデルの意思決定に対するユーザの理解を改善するために設計された、解釈可能なテーブルQAアプローチである。 POSは,人間のモデル動作の理解を助け,モデル予測の検証を容易にする,高品質な説明手法であることを示す。同じ説明に基づいて意思決定を行う際に、LLMと人間ユーザの間で高い合意(最大90%)を観察する。
論文参考訳（メタデータ） (2024-12-16T22:44:31Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
EXPLORA: Efficient Exemplar Subset Selection for Complex Reasoning [5.172620636569522]
大規模言語モデル (LLMs) は文脈内学習 (ICL) を可能にしており、LLMはいくつかの実演サンプル(例)を使って特定のタスクにおいて習熟度を取得できる。 ICLにおける重要な課題は、タスク特化(静的)またはテスト特化(動的)のいずれかが可能な最適例の選択である。
論文参考訳（メタデータ） (2024-11-06T12:48:04Z)
TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。 TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-10-07T04:15:02Z)
Exploring the Robustness of Language Models for Tabular Question Answering via Attention Analysis [7.486549276995143]
大規模言語モデル(LLM)は、特定の訓練なしにテーブル理解タスクに取り組むことが示されている。 In-context Learning (ICL), model scale, instruction tune, and domain bias が Tabular QA (TQA) に与える影響を考察する。摂動による注意分散の変化と性能低下との間には強い相関関係がみられた。
論文参考訳（メタデータ） (2024-06-18T15:41:15Z)
CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。本稿では,新しい検証フレームワークであるCaLMを紹介する。我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文参考訳（メタデータ） (2024-06-08T06:04:55Z)
TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。 1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文参考訳（メタデータ） (2023-12-14T15:37:04Z)
Which Examples to Annotate for In-Context Learning? Towards Effective and Efficient Selection [35.924633625147365]
大規模言語モデル(LLM)は、文脈内学習(ICL)を介して新しいタスクに適応できるそこで本研究では,ICLのアクティブな学習手法について検討し,アノテートのための予算が限られている。本稿では,モデルが不確実であることを示すモデル適応型最適化自由アルゴリズムAdaICLを提案する。
論文参考訳（メタデータ） (2023-10-30T22:03:55Z)
BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文参考訳（メタデータ） (2023-10-24T12:18:17Z)
Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文参考訳（メタデータ） (2023-10-09T13:29:37Z)
Effective Distillation of Table-based Reasoning Ability from LLMs [23.35522261002175]
大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。その膨大なパラメータサイズと計算能力に対する非常に高い要求は、その実践的な展開に挑戦する。近年の研究では、LLMの特定の機能、例えば数値的推論は蒸留によってより小さなモデルに移行できることが明らかになっている。
論文参考訳（メタデータ） (2023-09-22T21:15:28Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)
DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction [7.388002745070808]
本研究では、生成問題をサブプロブレムに分解し、それらのサブプロブレムの解を大規模言語モデルに供給する方法について検討する。文脈内学習による我々のアプローチは、多くの微調整されたモデルを少なくとも5%上回っている。
論文参考訳（メタデータ） (2023-04-21T15:02:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。