論文の概要: An automatically discovered chain-of-thought prompt generalizes to novel
models and datasets
- arxiv url: http://arxiv.org/abs/2305.02897v1
- Date: Thu, 4 May 2023 15:07:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 15:04:31.050410
- Title: An automatically discovered chain-of-thought prompt generalizes to novel
models and datasets
- Title(参考訳): 自動的に発見された連鎖的思考プロンプトは、新しいモデルとデータセットに一般化する
- Authors: Konstantin Hebenstreit, Robert Praas, Louis P Kiesewetter, Matthias
Samwald
- Abstract要約: Chain-of-Thought(CoT)機能は、大規模言語モデルのパフォーマンスと説明可能性を向上させることを約束する。
我々は,最近リリースされた6つのLLMに対して,CoT推論を誘導する一連のゼロショットプロンプトの性能を比較した。
自動的なプロンプト発見によって以前に発見されたCoTプロンプトは,実験条件間で堅牢な性能を示すことがわかった。
- 参考スコア(独自算出の注目度): 4.693905948827508
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emergent chain-of-thought (CoT) reasoning capabilities promise to improve
performance and explainability of large language models (LLMs). However,
uncertainties remain about how prompting strategies formulated for previous
model generations generalize to new model generations and different datasets.
In this small-scale study we compare the performance of a range of zero-shot
prompts for inducing CoT reasoning across six recently released LLMs
(davinci-002, davinci-003, GPT-3.5-turbo, GPT-4, Flan-T5-xxl and Cohere
command-xlarge) on a mixture of six question-answering datasets, including
datasets from scientific and medical domains. We find that a CoT prompt that
was previously discovered through automated prompt discovery shows robust
performance across experimental conditions and produces best results when
applied to the state-of-the-art model GPT-4.
- Abstract(参考訳): emergent chain-of-thought (cot) 推論能力は、大規模言語モデル(llm)のパフォーマンスと説明可能性を改善することを約束する。
しかし、以前のモデル世代で定式化された戦略がどのように新しいモデル世代と異なるデータセットに一般化するかについては不確実性が残っている。
本研究では,最近リリースされた6つのLCM(davinci-002, davinci-003, GPT-3.5-turbo, GPT-4, Flan-T5-xxl, Cohere command-xlarge)を,科学的領域と医学領域のデータセットを含む6つの問合せデータセットで比較した。
また, 自動急速検出により検出されたCoTプロンプトは, 実験条件間で頑健な性能を示し, 最先端モデル GPT-4 に適用した場合の最良の結果が得られた。
関連論文リスト
- Small Models Are (Still) Effective Cross-Domain Argument Extractors [1.8698740023858036]
文と文書レベルの6つのEAEデータセット上で,質問応答 (QA) とテンプレート埋め込み (TI) を用いたゼロショット転送について検討する。
GPT-3.5 や GPT-4 よりも優れたゼロショット性能が得られることを示す。
論文 参考訳(メタデータ) (2024-04-12T16:23:41Z) - MathGenie: Generating Synthetic Data with Question Back-translation for
Enhancing Mathematical Reasoning of LLMs [39.769464414087935]
MathGenieは、小規模の問題解決データセットから多様で信頼性の高い数学問題を生成する新しい方法である。
7Bから70Bまでの各種事前学習モデルについて, 提案手法の有効性を検証するために, 新たなキュレートデータを用いて訓練を行った。
MathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルで最高のスコアを確保している。
論文 参考訳(メタデータ) (2024-02-26T07:17:25Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - A Novel Benchmark for Few-Shot Semantic Segmentation in the Era of Foundation Models [7.428199805959228]
DINO V2は、様々なデータセットや適応手法において、他のモデルよりも大きなマージンで優れていることを示す。
一方、適応法は得られた結果にほとんど相違がなく、単純な線形プローブはより高度でより計算集約的な代替手段と競合する可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-01-20T19:50:51Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model
Perspective [67.25782152459851]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - AMR Parsing with Causal Hierarchical Attention and Pointers [54.382865897298046]
因果的階層的注意とポインタ機構を備えた新しいAMR解析と新しいモデルCHAPを導入する。
実験の結果, 5つのベンチマークのうち4つのベースラインモデルでは, 追加データがない場合に, ベースラインモデルよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-10-18T13:44:26Z) - Explanation-based Finetuning Makes Models More Robust to Spurious Cues [21.327036110196637]
大きな言語モデル(LLM)は非常に強力で、ラベルとタスクとは無関係な機能の間に相関関係を学習することがある。
本稿では,LLMの素早い相関性への依存を軽減するための一般的なアプローチとして,説明ベースファインタニングを提案する。
我々は、その解答をサポートする自由テキスト説明を新たに生成するように、モデルを微調整する。
論文 参考訳(メタデータ) (2023-05-08T18:53:45Z) - A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [71.42197262495056]
GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。
2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。
21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。
実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
論文 参考訳(メタデータ) (2023-03-18T14:02:04Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - S^3-Rec: Self-Supervised Learning for Sequential Recommendation with
Mutual Information Maximization [104.87483578308526]
本稿では,シーケンスレコメンデーションのための自己改善学習のためのモデルS3-Recを提案する。
そこで本稿では,属性,項目,サブシーケンス,シーケンス間の相関関係を学習するために,4つの補助的自己教師対象を考案する。
6つの実世界のデータセットで実施された大規模な実験は、既存の最先端手法よりも提案手法が優れていることを示す。
論文 参考訳(メタデータ) (2020-08-18T11:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。