論文の概要: Selecting Better Samples from Pre-trained LLMs: A Case Study on Question
Generation
- arxiv url: http://arxiv.org/abs/2209.11000v1
- Date: Thu, 22 Sep 2022 13:33:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 13:26:07.681514
- Title: Selecting Better Samples from Pre-trained LLMs: A Case Study on Question
Generation
- Title(参考訳): プレトレーニングLDMからより良いサンプルを選択する:質問生成を事例として
- Authors: Xingdi Yuan, Tong Wang, Yen-Hsiang Wang, Emery Fine, Rania Abdelghani,
Pauline Lucas, H\'el\`ene Sauz\'eon and Pierre-Yves Oudeyer
- Abstract要約: 近年,Large Language Models (LLMs) は,自然言語生成に顕著な進歩を見せている。
LLM生成候補の集合から高品質な質問を選択するための2つのプロンプトベースアプローチを提案する。
提案手法は,1)ブラックボックス(修正不可能な)質問生成モデル,2)人間による注釈付き参照へのアクセスの欠如という制約の下で機能する。
- 参考スコア(独自算出の注目度): 22.294762359009052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have in recent years demonstrated impressive
prowess in natural language generation. A common practice to improve generation
diversity is to sample multiple outputs from the model. However, there lacks a
simple and robust way of selecting the best output from these stochastic
samples. As a case study framed in the context of question generation, we
propose two prompt-based approaches to selecting high-quality questions from a
set of LLM-generated candidates. Our method works under the constraints of 1) a
black-box (non-modifiable) question generation model and 2) lack of access to
human-annotated references -- both of which are realistic limitations for
real-world deployment of LLMs. With automatic as well as human evaluations, we
empirically demonstrate that our approach can effectively select questions of
higher qualities than greedy generation.
- Abstract(参考訳): 近年,Large Language Models (LLMs) は自然言語生成に顕著な進歩を見せている。
生成の多様性を改善する一般的な方法は、モデルから複数のアウトプットをサンプリングすることだ。
しかし、これらの確率的サンプルから最良の出力を選択するための単純で堅牢な方法がない。
質問生成の文脈におけるケーススタディとして、LLM生成候補から高品質な質問を選択するための2つのプロンプトベースのアプローチを提案する。
私たちの方法は制約の下で機能する
1)ブラックボックス(修正不能)質問生成モデル、及び
2) 人間のアノテーションによる参照へのアクセスの欠如 -- どちらも、LLMの現実的なデプロイの現実的な制限です。
人的評価だけでなく自動的な評価によって,我々の手法が欲求生成よりも高い品質の質問を効果的に選択できることを実証的に実証する。
関連論文リスト
- YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - Reranking for Natural Language Generation from Logical Forms: A Study
based on Large Language Models [47.08364281023261]
大規模言語モデル(LLM)は、自然言語生成において印象的な能力を示している。
しかし、それらの出力品質は矛盾する可能性があり、論理形式(LF)から自然言語を生成する上での課題を提起する。
論文 参考訳(メタデータ) (2023-09-21T17:54:58Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Lightweight reranking for language model generations [26.942659041383596]
本稿では,Large Language Models (LLM) 世代を再評価するための新しいアプローチを提案する。
追加の推論や特殊リランカの訓練を含む他の手法とは異なり、我々の手法はペアワイズ統計の計算が容易である。
コード生成タスクで最高のk世代を選択するための強力な改善と、オートフォーマライズ、要約、翻訳のタスクで最高の世代で堅牢な改善を示す。
論文 参考訳(メタデータ) (2023-07-11T17:51:48Z) - PRD: Peer Rank and Discussion Improve Large Language Model based
Evaluations [8.49315902032444]
大規模言語モデル(LLM)は自動評価や比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文 参考訳(メタデータ) (2023-07-06T04:05:44Z) - True Few-Shot Learning with Language Models [78.42578316883271]
ホールドアウト例が利用できない場合, LMの少数ショット能力を評価する。
以上の結果から,先行研究はLMの真少ショット能力を大幅に過大評価していたことが示唆された。
論文 参考訳(メタデータ) (2021-05-24T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。