論文の概要: Prompting Large Language Models for Counterfactual Generation: An
Empirical Study
- arxiv url: http://arxiv.org/abs/2305.14791v2
- Date: Fri, 23 Feb 2024 07:02:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 18:27:27.613517
- Title: Prompting Large Language Models for Counterfactual Generation: An
Empirical Study
- Title(参考訳): 反事実生成のための大規模言語モデルの提案--実証的研究
- Authors: Yongqi Li, Mayi Xu, Xin Miao, Shen Zhou, Tieyun Qian
- Abstract要約: 大規模言語モデル(LLM)は、幅広い自然言語理解と生成タスクにおいて顕著な進歩を遂げている。
本稿では,様々な種類のNLUタスクに対する総合的な評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.506528217009507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have made remarkable progress in a wide range of
natural language understanding and generation tasks. However, their ability to
generate counterfactuals has not been examined systematically. To bridge this
gap, we present a comprehensive evaluation framework on various types of NLU
tasks, which covers all key factors in determining LLMs' capability of
generating counterfactuals. Based on this framework, we 1) investigate the
strengths and weaknesses of LLMs as the counterfactual generator, and 2)
disclose the factors that affect LLMs when generating counterfactuals,
including both the intrinsic properties of LLMs and prompt designing. The
results show that, though LLMs are promising in most cases, they face
challenges in complex tasks like RE since they are bounded by task-specific
performance, entity constraints, and inherent selection bias. We also find that
alignment techniques, e.g., instruction-tuning and reinforcement learning from
human feedback, may potentially enhance the counterfactual generation ability
of LLMs. On the contrary, simply increasing the parameter size does not yield
the desired improvements. Besides, from the perspective of prompt designing,
task guidelines unsurprisingly play an important role. However, the
chain-of-thought approach does not always help due to inconsistency issues.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い自然言語理解と生成タスクにおいて顕著な進歩を遂げている。
しかし, 対物生成能力については, 体系的に検討されていない。
このギャップを埋めるために,様々な種類のNLUタスクに関する総合的な評価フレームワークを提案する。
この枠組みに基づいて、我々は
1)LLMの強度と弱さを逆発生剤として検討し、
2) LLMの本質的特性と迅速な設計の両方を含む, 対物生成に影響を及ぼす要因を開示する。
その結果、LLMはたいていの場合有望であるが、タスク固有のパフォーマンス、エンティティ制約、固有の選択バイアスに縛られているため、REのような複雑なタスクでは課題に直面していることがわかった。
また,人間のフィードバックから指導訓練や強化学習などのアライメント技術によって,LLMの反ファクト生成能力が向上する可能性が示唆された。
逆にパラメータサイズを単純に増やしても、望ましい改善は得られない。
さらに、プロンプトデザインの観点からは、当然ながらタスクガイドラインが重要な役割を担っています。
しかし、チェーンオブ思考のアプローチは、矛盾した問題のために必ずしも役に立たない。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Beyond the Answers: Reviewing the Rationality of Multiple Choice
Question Answering for the Evaluation of Large Language Models [30.674058754196462]
本研究では,大規模言語モデル(LLM)の評価手法として,MCQA(Multiple Choice Question Answering)の合理性を検討する。
この期待とは対照的に,LLM応答の一貫性に顕著な相違が示唆された。
論文 参考訳(メタデータ) (2024-02-02T12:07:00Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Supervised Knowledge Makes Large Language Models Better In-context
Learners [97.71733265438044]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Learning To Teach Large Language Models Logical Reasoning [33.88499005859982]
大規模言語モデル(LLM)は、学術と産業の両方から大きな注目を集めている。
しかし、現在のLLMは、その固有の問題のために、実用的な推論タスクにおいて信頼性の低いコンテンツを出力している。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - MenatQA: A New Dataset for Testing the Temporal Comprehension and
Reasoning Abilities of Large Language Models [17.322480769274062]
大規模言語モデル(LLM)は、多くの自然言語処理(NLP)タスクにおいてほぼ飽和した性能を示している。
本稿では,LLMの時間的理解と推論能力を評価するために,合計2,853個のサンプルを用いた多感性因子時間QA(MenatQA)を構築した。
論文 参考訳(メタデータ) (2023-10-08T13:19:52Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。