論文の概要: Speak Like a Native: Prompting Large Language Models in a Native Style
- arxiv url: http://arxiv.org/abs/2311.13538v1
- Date: Wed, 22 Nov 2023 17:24:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 14:12:14.036109
- Title: Speak Like a Native: Prompting Large Language Models in a Native Style
- Title(参考訳): Speak Like a Native: 大規模言語モデルをネイティブスタイルで提案する
- Authors: Zhicheng Yang, Yiwei Wang, Yinya Huang, Jing Xiong, Xiaodan Liang,
Jing Tang
- Abstract要約: 既存の研究によると、迅速なエンジニアリングは大規模言語モデル(LLM)の性能に大きく影響している。
本稿では, LLMの推論能力を向上させるために, textbfAlignCoT という新しい効果的手法を提案する。
- 参考スコア(独自算出の注目度): 53.84738665918496
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing work has found that the prompt engineering heavily influences the
performance of large language models (LLMs). Chain-of-thought (CoT), as a
popular prompt engineering technique, prompted LLMs using in-context examples
with reasoning steps. In current studies, the few-shot examples of CoT are
generally handcrafted by humans. However, how the text style of in-context
examples influence the outputs of LLMs still remains under-explored. This paper
presents a novel and effective approach, named \textbf{AlignCoT}, to improve
the reasoning capability of LLMs by aligning the in-context examples with the
native style of LLMs. ``Native'' refers to the inherent characteristic style of
LLMs which can be probed by original zero-shot scenarios. AlignCoT is
orthogonal to other prompt engineering methods, making it easy to combine with
state-of-the-art techniques to further improve the LLMs' performance. We
conduct extensive and comprehensive experiments on several benchmarks. The
empirical results demonstrate that our AlignCoTsignificantly improves
performance over the carefully handcrafted in-context examples. For instance,
with GPT-3.5-turbo, we observed a +2.5\% improvement on GSM8K. Furthermore, our
AlignCoT consistently improve the performance when combined with other
state-of-the-art prompt engineering methods. The source code and dataset will
be available at
\href{https://github.com/yangzhch6/AlignCoT}{https://github.com/yangzhch6/AlignCoT}.
- Abstract(参考訳): 既存の研究によると、プロンプトエンジニアリングは大規模言語モデル(llm)のパフォーマンスに大きな影響を与えている。
人気のあるプロンプトエンジニアリング技術であるchain-of-thought(cot)は、コンテキスト内例と推論ステップを使ってllmを誘導した。
最近の研究では、コットの数少ない例は一般に人間が手作りしている。
しかし、文脈内例のテキストスタイルがLLMの出力にどのように影響するかはまだ未解明のままである。
本稿では, LLMのネイティブスタイルとコンテキスト内例を整合させることにより, LLMの推論能力を向上させるために, 新規で効果的なアプローチである「textbf{AlignCoT}」を提案する。
`Native'' は、オリジナルのゼロショットシナリオによって探索できる LLM 固有の特性スタイルを指す。
aligncotは他のプロンプトエンジニアリング手法と直交しており、最先端の技術と組み合わせることでllmsの性能をさらに向上することができる。
いくつかのベンチマークで広範囲で包括的な実験を行う。
実験結果から,aligncotsignificiclyは,手作りのインコンテキスト例よりもパフォーマンスが向上することが示された。
例えば, GPT-3.5-turboでは, GSM8Kは2.5%改善した。
さらに,最先端のプロンプトエンジニアリング手法と組み合わせることで,性能を一貫して向上させる。
ソースコードとデータセットは \href{https://github.com/yangzhch6/AlignCoT}{https://github.com/yangzhch6/AlignCoT} で入手できる。
関連論文リスト
- Towards Multimodal In-Context Learning for Vision & Language Models [17.94596325418465]
本研究では、ICL命令に従うための最先端のVLMの機能を解析する。
大規模な混合モダリティ事前訓練を受けたモデルでさえも、少数ショット(ICL)のデモンストレーションを行う際に、インターリーブ画像とテキスト情報のアンダーパフォーマンスを利用するように暗黙的にガイドされていることが判明した。
我々は、ICLのサポート、方法論、カリキュラムで共通のVLMアライメントフレームワークを拡張するための、シンプルで、驚くほど効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-19T13:53:37Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential
Behavior Comprehension in Recommendation [44.89764672511655]
ゼロショットと少数ショットのレコメンデーションタスクのために、純粋に大きな言語モデルを適応し、強化することに重点を置いています。
ゼロショット設定と少数ショット設定の両方でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
論文 参考訳(メタデータ) (2023-08-22T02:25:04Z) - Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。
提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。
モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文 参考訳(メタデータ) (2023-07-31T13:26:03Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。