論文の概要: Bounding the Capabilities of Large Language Models in Open Text
Generation with Prompt Constraints
- arxiv url: http://arxiv.org/abs/2302.09185v1
- Date: Fri, 17 Feb 2023 23:30:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 19:58:25.903944
- Title: Bounding the Capabilities of Large Language Models in Open Text
Generation with Prompt Constraints
- Title(参考訳): プロンプト制約付きオープンテキスト生成における大規模言語モデルの能力境界
- Authors: Albert Lu, Hongxin Zhang, Yanzhe Zhang, Xuezhi Wang, Diyi Yang
- Abstract要約: 我々は、オープンエンド生成モデルの能力を解析し、有界化するために、即時中心のアプローチをとる。
本稿では,構造的およびスタイリスティックな2つの制約型を用いた解析手法を提案する。
我々の研究成果と文脈内緩和戦略は、今後の研究におけるオープンな課題を明らかにする。
- 参考スコア(独自算出の注目度): 38.69469206527995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The limits of open-ended generative models are unclear, yet increasingly
important. What causes them to succeed and what causes them to fail? In this
paper, we take a prompt-centric approach to analyzing and bounding the
abilities of open-ended generative models. We present a generic methodology of
analysis with two challenging prompt constraint types: structural and
stylistic. These constraint types are categorized into a set of well-defined
constraints that are analyzable by a single prompt. We then systematically
create a diverse set of simple, natural, and useful prompts to robustly analyze
each individual constraint. Using the GPT-3 text-davinci-002 model as a case
study, we generate outputs from our collection of prompts and analyze the
model's generative failures. We also show the generalizability of our proposed
method on other large models like BLOOM and OPT. Our results and our in-context
mitigation strategies reveal open challenges for future research. We have
publicly released our code at https://github.com/SALT-NLP/Bound-Cap-LLM.
- Abstract(参考訳): オープンエンド生成モデルの限界は明確ではないが、ますます重要になっている。
成功の原因は何か、失敗の原因は何なのか?
本稿では,オープンエンド生成モデルの能力を解析し,バウンドする手法を提案する。
本稿では,構造的およびスタイリスティックな2つの制約型を用いた解析手法を提案する。
これらの制約型は、一つのプロンプトで分析可能な、明確に定義された一連の制約に分類される。
次に、各制約を堅牢に分析するための、単純で自然な、有用なプロンプトの多様なセットを体系的に作成します。
GPT-3 text-davinci-002 model をケーススタディとして,提案するプロンプトの集合から出力を生成し,モデルの生成障害を解析する。
また,BLOOM や OPT などの大規模モデルに対して提案手法の一般化可能性を示す。
我々の結果と文脈内緩和戦略は、今後の研究に対するオープンな課題を明らかにする。
コードをhttps://github.com/SALT-NLP/Bound-Cap-LLMで公開しています。
関連論文リスト
- Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - Vector-Quantized Prompt Learning for Paraphrase Generation [18.40940464497253]
本稿では、事前学習されたモデルにインスタンス依存のプロンプトを組み込むことにより、多種多様な高品質なパラフレーズを生成することを提案する。
大規模な実験により,提案手法は3つのベンチマークデータセットに対して新たな最先端結果が得られることを示した。
論文 参考訳(メタデータ) (2023-11-25T07:13:06Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Tractable Control for Autoregressive Language Generation [82.79160918147852]
本稿では,自動回帰テキスト生成モデルに語彙制約を課すために,トラクタブル確率モデル(TPM)を提案する。
本稿では,GeLaToが制約付きテキスト生成のための挑戦的ベンチマークにおいて,最先端のパフォーマンスを実現することを示す。
我々の研究は、大きな言語モデルを制御するための新しい道を開き、さらに表現力のあるTPMの開発を動機付けます。
論文 参考訳(メタデータ) (2023-04-15T00:19:44Z) - Visually-Prompted Language Model for Fine-Grained Scene Graph Generation
in an Open World [67.03968403301143]
SGG(Scene Graph Generation)は、視覚理解のための画像中の主観的、述語的、対象的な関係を抽出することを目的としている。
既存の再バランス戦略は、以前のルールを通じてそれを処理しようとするが、まだ事前に定義された条件に制限されている。
そこで我々は,多種多様な粒度の述語を生成するために,視覚的にプロンプトされた言語モデルを学習するクロスモーダルプレディケイトブースティング(CaCao)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-23T13:06:38Z) - Constrained Sampling from Language Models via Langevin Dynamics in
Embedding Spaces [34.375537557235724]
本稿では,言語モデルのログ類似度を任意の微分可能な制約と組み合わせて1つのエネルギー関数にサンプリングする手法を提案する。
我々は,テキスト生成タスクのソフトな制約とハードな制約と,有害性回避,感情制御,キーワード誘導生成の競合する結果との組合せに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-05-25T08:09:03Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z) - ANLIzing the Adversarial Natural Language Inference Dataset [46.7480191735164]
我々は最近導入された大規模ヒューマン・アンド・モデル・イン・ザ・ループ自然言語推論データセットであるAdversarial NLI(ANLI)の詳細な誤差解析を行う。
本稿では,金の分類ラベルに責任を負う推論のさまざまな側面の詳細なアノテーションスキームを提案し,それをANLI開発セットの3つすべてに手書きする。
論文 参考訳(メタデータ) (2020-10-24T01:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。