論文の概要: Large Language Models as Counterfactual Generator: Strengths and
Weaknesses
- arxiv url: http://arxiv.org/abs/2305.14791v1
- Date: Wed, 24 May 2023 06:44:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 19:03:01.434638
- Title: Large Language Models as Counterfactual Generator: Strengths and
Weaknesses
- Title(参考訳): 反事実発生器としての大規模言語モデル:強みと弱み
- Authors: Yongqi Li, Mayi Xu, Xin Miao, Shen Zhou, Tieyun Qian
- Abstract要約: 大規模言語モデル(LLM)は、自然言語の理解と生成タスクにおいて顕著な性能を示した。
本研究は,LLMの反実的生成能力と,この能力に影響を与える解析要因について検討することを目的とする。
- 参考スコア(独自算出の注目度): 13.38796575777584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable performance in a
range of natural language understanding and generation tasks. Yet, their
ability to generate counterfactuals, which can be used for areas like data
augmentation, remains under-explored. This study aims to investigate the
counterfactual generation capabilities of LLMs and analysis factors that
influence this ability. First, we evaluate how effective are LLMs in
counterfactual generation through data augmentation experiments for small
language models (SLMs) across four tasks: sentiment analysis, natural language
inference, named entity recognition, and relation extraction. While LLMs show
promising enhancements in various settings, they struggle in complex tasks due
to their self-limitations and the lack of logical guidance to produce
counterfactuals that align with commonsense. Second, our analysis reveals the
pivotal role of providing accurate task definitions and detailed step-by-step
instructions to LLMs in generating counterfactuals. Interestingly, we also find
that LLMs can generate reasonable counterfactuals even with unreasonable
demonstrations, which illustrates that demonstrations are primarily to regulate
the output format.This study provides the first comprehensive insight into
counterfactual generation abilities of LLMs, and offers a novel perspective on
utilizing LLMs for data augmentation to enhance SLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語の理解と生成タスクにおいて顕著な性能を示した。
しかし、データ拡張のような領域で使用できる反ファクトを生成できる能力は、まだ未調査のままだ。
本研究は,LLMの反実的生成能力と,この能力に影響を与える解析要因について検討することを目的とする。
まず, 感情分析, 自然言語推論, 名前付き実体認識, 関係抽出の4つのタスクにまたがる小型言語モデル(SLM)のデータ拡張実験を通じて, 対物生成におけるLLMの有効性を評価する。
LLMは様々な場面で有望な機能強化を示す一方で、自己向上と、コモンセンスと整合する反事実を生み出すための論理的ガイダンスの欠如により、複雑なタスクに苦しむ。
第2に, タスク定義の正確化と, llm へのステップ・バイ・ステップ命令の詳細な提供という重要な役割を, 分析により明らかにする。
興味深いことに、LLMは、主に出力フォーマットを規制するためのデモであることを示す不合理なデモであっても、合理的な偽造物を生成することができる。本研究は、LCMの逆造物生成能力を初めて包括的に把握し、データ拡張にLLMを活用して、SLMを強化するための新しい視点を提供する。
関連論文リスト
- Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Beyond the Answers: Reviewing the Rationality of Multiple Choice
Question Answering for the Evaluation of Large Language Models [30.674058754196462]
本研究では,大規模言語モデル(LLM)の評価手法として,MCQA(Multiple Choice Question Answering)の合理性を検討する。
この期待とは対照的に,LLM応答の一貫性に顕著な相違が示唆された。
論文 参考訳(メタデータ) (2024-02-02T12:07:00Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Learning To Teach Large Language Models Logical Reasoning [33.88499005859982]
大規模言語モデル(LLM)は、学術と産業の両方から大きな注目を集めている。
しかし、現在のLLMは、その固有の問題のために、実用的な推論タスクにおいて信頼性の低いコンテンツを出力している。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - MenatQA: A New Dataset for Testing the Temporal Comprehension and
Reasoning Abilities of Large Language Models [17.322480769274062]
大規模言語モデル(LLM)は、多くの自然言語処理(NLP)タスクにおいてほぼ飽和した性能を示している。
本稿では,LLMの時間的理解と推論能力を評価するために,合計2,853個のサンプルを用いた多感性因子時間QA(MenatQA)を構築した。
論文 参考訳(メタデータ) (2023-10-08T13:19:52Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。