論文の概要: Large Language Models are few(1)-shot Table Reasoners
- arxiv url: http://arxiv.org/abs/2210.06710v1
- Date: Thu, 13 Oct 2022 04:08:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 15:42:05.287839
- Title: Large Language Models are few(1)-shot Table Reasoners
- Title(参考訳): 大規模言語モデルはほとんどない(1)ショットテーブル推論
- Authors: Wenhu Chen
- Abstract要約: 大規模言語モデル(LLM)は、テキスト推論タスクを解くために、非常に優れた数ショット推論器である。
本稿では,LLMが数発の文脈内学習でテーブルタスクでどれだけうまく機能するかを理解することを目的としている。
- 参考スコア(独自算出の注目度): 31.036914270008978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent literature has shown that large language models (LLMs) are generally
excellent few-shot reasoners to solve text reasoning tasks. However, the
capability of LLMs on table reasoning tasks is yet to be explored. In this
paper, we aim at understanding how well LLMs can perform on these table tasks
with few-shot in-context learning. Specifically, we evaluate LLMs on popular
table QA and fact verification datasets like WikiTableQuestion, FetaQA,
TabFact, and FEVEROUS and found that LLMs are really competent at complex
reasoning over table structures. When combined with `chain of thoughts'
prompting, GPT-3 is able to achieve very strong performance with only a 1-shot
demonstration. We further manually study the reasoning chains elicited from
LLMs and found that these reasoning chains are highly consistent with the
`ground truth' semantic form. We believe that our study opens new possibilities
to employ LLMs on different table-based reasoning tasks under few-shot
scenario.
- Abstract(参考訳): 近年の文献では、大規模言語モデル(LLM)は、テキスト推論タスクを解くための優れた数ショット推論器であることが示されている。
しかし、テーブル推論タスクにおけるLLMの能力はまだ検討されていない。
本稿では,LLMが文脈内学習によって,これらのタスクでどの程度うまく機能するかを理解することを目的とする。
具体的には、人気のあるテーブルQAおよびWikiTableQuestion、FetaQA、TabFact、FEVEROUSなどの事実検証データセット上でLLMを評価し、LLMがテーブル構造よりも複雑な推論に非常に適していることを発見した。
思考の連鎖」と組み合わせることで、GPT-3は1ショットのデモだけで非常に強力なパフォーマンスを達成することができる。
さらに, LLMから引き出された推論連鎖を手作業で研究した結果, これらの推論鎖は「地下真理」の意味形式と極めて一致していることがわかった。
我々の研究は、数ショットのシナリオ下で異なるテーブルベースの推論タスクにLLMを採用する新たな可能性を開くと信じている。
関連論文リスト
- Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。
本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文 参考訳(メタデータ) (2024-02-26T20:33:50Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question
Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z) - A Survey of Table Reasoning with Large Language Models [55.2326738851157]
大規模言語モデル(LLM)の使用は、テーブル推論の主流となる。
LLM時代におけるテーブル推論性能の向上に使用される主流技術について分析する。
本研究は,既存手法の改良と実用化の拡充の両面から研究の方向性を示す。
論文 参考訳(メタデータ) (2024-02-13T07:17:52Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Learning To Teach Large Language Models Logical Reasoning [33.88499005859982]
大規模言語モデル(LLM)は、学術と産業の両方から大きな注目を集めている。
しかし、現在のLLMは、その固有の問題のために、実用的な推論タスクにおいて信頼性の低いコンテンツを出力している。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Multi-Task Instruction Tuning of LLaMa for Specific Scenarios: A
Preliminary Study on Writing Assistance [60.40541387785977]
小さな基礎モデルは、命令駆動データを用いて微調整された場合、多様なタスクに対処する際、顕著な習熟度を示すことができる。
本研究は, 汎用的な指導よりも, 1つないし数つの特定のタスクに主眼を置いている, 実践的な問題設定について検討する。
実験結果から,命令データに対する微調整LLaMAは,タスクの記述能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-05-22T16:56:44Z) - Table Meets LLM: Can Large Language Models Understand Structured Table
Data? A Benchmark and Empirical Study [47.6239689986714]
大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。
我々は,LLMの構造理解能力(SUC)を評価するためのベンチマークを設計することで,これを理解しようとしている。
その結果、テーブル入力形式、コンテンツ順序、ロールプロンプト、パーティションマークなど、いくつかの入力選択によってパフォーマンスが変化していることが判明した。
論文 参考訳(メタデータ) (2023-05-22T14:23:46Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。