論文の概要: Are Large Language Models Table-based Fact-Checkers?
- arxiv url: http://arxiv.org/abs/2402.02549v2
- Date: Wed, 13 Nov 2024 12:37:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:09:48.324579
- Title: Are Large Language Models Table-based Fact-Checkers?
- Title(参考訳): 大型言語モデルはテーブルベースのファクトチェッカーか?
- Authors: Hanwen Zhang, Qingyi Si, Peng Fu, Zheng Lin, Weiping Wang,
- Abstract要約: 表ベースのFact Verification (TFV) は、文と構造化テーブルの間の関係を抽出することを目的としている。
大規模モデルに基づく既存のTFV法は、ラベル付きデータ不足とゼロショット能力の弱さに悩まされている。
大規模言語モデル(LLM)は、強力なゼロショットとコンテキスト内学習能力を示している。
- 参考スコア(独自算出の注目度): 17.636623242137585
- License:
- Abstract: Table-based Fact Verification (TFV) aims to extract the entailment relation between statements and structured tables. Existing TFV methods based on small-scaled models suffer from insufficient labeled data and weak zero-shot ability. Recently, the appearance of Large Language Models (LLMs) has gained lots of attraction in research fields. They have shown powerful zero-shot and in-context learning abilities on several NLP tasks, but their potential on TFV is still unknown. In this work, we implement a preliminary study about whether LLMs are table-based fact-checkers. In detail, we design diverse prompts to explore how the in-context learning can help LLMs in TFV, i.e., zero-shot and few-shot TFV capability. Besides, we carefully design and construct TFV instructions to study the performance gain brought by the instruction tuning of LLMs. Experimental results demonstrate that LLMs can achieve acceptable results on zero-shot and few-shot TFV with prompt engineering, while instruction-tuning can stimulate the TFV capability significantly. We also make some valuable findings about the format of zero-shot prompts and the number of in-context examples. Finally, we analyze some possible directions to promote the accuracy of TFV via LLMs, which is beneficial to further research of table reasoning.
- Abstract(参考訳): 表ベースのFact Verification (TFV) は、文と構造化テーブルの間の関係を抽出することを目的としている。
大規模モデルに基づく既存のTFV法は、ラベル付きデータ不足とゼロショット能力の弱さに悩まされている。
近年,Large Language Models (LLMs) の出現は研究分野において多くの注目を集めている。
彼らはいくつかのNLPタスクで強力なゼロショットとインコンテキスト学習能力を示したが、TFVにおけるその可能性はまだ不明である。
本研究では, LLM がテーブルベースのファクトチェッカーであるかどうかを予備検討する。
より詳しくは、文脈内学習がTFVのLLM、すなわちゼロショットと少数ショットのTFV能力にどのように役立つかを検討するために、多様なプロンプトを設計する。
さらに,LLMの命令チューニングによる性能向上を検討するため,TFV命令を慎重に設計・構築する。
実験により,ゼロショットおよび少数ショットのTFVにおいて,命令チューニングがTFV能力を著しく刺激する一方,ゼロショットおよび少数ショットのTFVにおいて許容できる結果が得られることが示された。
また、ゼロショットプロンプトの形式や、コンテキスト内例の数について、いくつかの貴重な発見を行う。
最後に,LLMによるTFVの精度向上の可能な方向を解析し,テーブル推論のさらなる研究に有用であることを示す。
関連論文リスト
- Enhancing Temporal Understanding in LLMs for Semi-structured Tables [50.59009084277447]
我々は、大規模言語モデル(LLM)の特定の限界を特定するために、時間的データセットの包括的な分析を行う。
調査の結果,時間的時間的質問応答に特化したデータセットであるTempTabQAが強化された。
我々は,この領域におけるLLM機能を強化するために,新しいアプローチC.L.E.A.R.を導入する。
論文 参考訳(メタデータ) (2024-07-22T20:13:10Z) - LTLBench: Towards Benchmarks for Evaluating Temporal Logic Reasoning in Large Language Models [5.455744338342196]
時間的推論(TR)は人工知能の重要な構成要素である。
TR能力の様々な側面を評価するために、様々なデータセットが様々な方法で構築されている。
本研究は,LLMのTR能力を評価するために,データセット構築のためのパイプラインを設計・開発するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-07T16:37:06Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Large Language Models Can Learn Temporal Reasoning [11.599570446840547]
本稿では,言語に基づく時間的推論のための新しいフレームワークTG-LLMを提案する。
元の文脈を推論する代わりに、潜時表現、時間グラフ(TG)を採用する。
合成データセット(TGQA)は完全に制御可能であり、最小限の監督を必要とする。
論文 参考訳(メタデータ) (2024-01-12T19:00:26Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Effective Distillation of Table-based Reasoning Ability from LLMs [23.35522261002175]
大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。
その膨大なパラメータサイズと計算能力に対する非常に高い要求は、その実践的な展開に挑戦する。
近年の研究では、LLMの特定の機能、例えば数値的推論は蒸留によってより小さなモデルに移行できることが明らかになっている。
論文 参考訳(メタデータ) (2023-09-22T21:15:28Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z) - Aligning Instruction Tasks Unlocks Large Language Models as Zero-Shot
Relation Extractors [11.28397947587596]
大規模命令追従データセット上での細調整大型言語モデル(LLM)は、幅広いNLPタスクの性能を大幅に向上させる。
しかし、先進的な命令調整 LLM でさえ、関係抽出(RE)において小さな LM を上回りません。
本稿では,REを質問応答(QA)と整合させるフレームワークであるQA4REを提案する。
論文 参考訳(メタデータ) (2023-05-18T17:48:03Z) - Large Language Models are few(1)-shot Table Reasoners [31.036914270008978]
大規模言語モデル(LLM)は、テキスト推論タスクを解くために、非常に優れた数ショット推論器である。
本稿では,LLMが数発の文脈内学習でテーブルタスクでどれだけうまく機能するかを理解することを目的としている。
論文 参考訳(メタデータ) (2022-10-13T04:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。