論文の概要: Large Language Models are Null-Shot Learners
- arxiv url: http://arxiv.org/abs/2401.08273v2
- Date: Wed, 14 Feb 2024 10:34:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 18:43:59.161284
- Title: Large Language Models are Null-Shot Learners
- Title(参考訳): 大きな言語モデルはヌルショット学習者です
- Authors: Pittawat Taveekitworachai, Febri Abdullah, Ruck Thawonmas
- Abstract要約: Null-shot promptingは大規模言語モデル(LLM)における幻覚を悪用する
通常のゼロショットプロンプトと比較して,幻覚を利用してタスクの実行性能を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 1.6004393678882072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents null-shot prompting. Null-shot prompting exploits
hallucination in large language models (LLMs) by instructing LLMs to utilize
information from the "Examples" section that never exists within the provided
context to perform a task. While reducing hallucination is crucial and
non-negligible for daily and critical uses of LLMs, we propose that in the
current landscape in which these LLMs still hallucinate, it is possible, in
fact, to exploit hallucination to increase performance in performing tasks
compared to standard zero-shot prompting. Experiments with eight LLMs show
improvements in performance across the majority of eight datasets, including
reading comprehension, arithmetic reasoning, and closed-book question
answering. The observed inconsistency in increased relative performance across
the LLMs also potentially indicates a different degree of inherent
hallucination in each model. These differences show that it is possible to
utilize null-shot prompting as a way to detect degrees of hallucination in LLMs
using existing benchmarking datasets. We also perform ablation studies,
including experimenting with a modified version of null-shot prompting that
incorporates ideas from zero-shot chain-of-thought prompting, which shows
different trends of results.
- Abstract(参考訳): 本稿ではヌルショットプロンプトを提案する。
Null-shot promptingは、LLMに与えられたコンテキスト内に存在しない"Examples"セクションの情報を使ってタスクを実行するように指示することで、大きな言語モデル(LLM)の幻覚を悪用する。
LLMの日常的かつ批判的な利用には幻覚の低減が不可欠であり、かつ無視できないが、これらのLLMがまだ幻覚化している現状では、実際に幻覚を利用して、標準のゼロショットプロンプトに比べてタスクの実行性能を向上させることが可能である。
8つのllmによる実験では、読み取り理解、算術推論、クローズドブックの質問応答など、8つのデータセットの大部分でパフォーマンスが向上している。
LLM間の相対的な性能向上における観察上の矛盾は、各モデルに固有の幻覚の程度が異なることを示す可能性がある。
これらの違いは、既存のベンチマークデータセットを使用してLLMにおける幻覚の度合いを検出する手段として、null-shot promptingを利用することができることを示している。
また、ゼロショット・チェーン・オブ・シント・プロンプトのアイデアを取り入れたヌルショット・プロンプトの修正版の実験を含むアブレーション研究も行った。
関連論文リスト
- Hallucination Diversity-Aware Active Learning for Text Summarization [46.00645048690819]
LLM(Large Language Models)は、幻覚出力を生成するための妥当性を示す。
幻覚を緩和するための既存の方法は、通常、LLM出力の幻覚を識別し修正するために、人為的なアノテーションを必要とする。
LLM幻覚を緩和する最初のアクティブラーニングフレームワークを提案し,必要な幻覚アノテーションのコストを削減した。
論文 参考訳(メタデータ) (2024-04-02T02:30:27Z) - HypoTermQA: Hypothetical Terms Dataset for Benchmarking Hallucination
Tendency of LLMs [0.0]
幻覚は、大規模言語モデル(LLM)の信頼性と整合性に重大な課題をもたらす
本稿では,LLMの幻覚傾向のベンチマークと効率的な幻覚検出を組み合わせた,スケーラブルな自動フレームワークを提案する。
フレームワークはドメインに依存しないため、任意のドメインでのベンチマーク作成や評価に任意の言語モデルを使用することができる。
論文 参考訳(メタデータ) (2024-02-25T22:23:37Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - Improving Factual Consistency of Text Summarization by Adversarially
Decoupling Comprehension and Embellishment Abilities of LLMs [67.56087611675606]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
LLM(DECENT)の能力を阻害する逆デカップリング法を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - Chainpoll: A high efficacy method for LLM hallucination detection [0.0]
そこで我々はChainPollという幻覚検出手法を紹介した。
我々はまた、最近の研究から幻覚検出指標を評価するためのベンチマークデータセットの洗練されたコレクションであるRealHallも公開した。
論文 参考訳(メタデータ) (2023-10-22T14:45:14Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Revisiting Large Language Models as Zero-shot Relation Extractors [8.953462875381888]
リレーショナル抽出(RE)は、ゼロショット設定下であっても、一定のラベル付きまたはラベルなしのデータを一貫して含む。
近年の研究では、大きな言語モデル(LLM)が、単に自然言語のプロンプトを与えられただけで、新しいタスクにうまく移行していることが示されている。
本研究はゼロショット関係抽出器としてLLMを探索することに焦点を当てる。
論文 参考訳(メタデータ) (2023-10-08T06:17:39Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language
Models [63.973142426228016]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。