論文の概要: An automatically discovered chain-of-thought prompt generalizes to novel
models and datasets
- arxiv url: http://arxiv.org/abs/2305.02897v2
- Date: Thu, 3 Aug 2023 14:33:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 16:56:45.934387
- Title: An automatically discovered chain-of-thought prompt generalizes to novel
models and datasets
- Title(参考訳): 自動的に発見された連鎖的思考プロンプトは、新しいモデルとデータセットに一般化する
- Authors: Konstantin Hebenstreit, Robert Praas, Louis P Kiesewetter, Matthias
Samwald
- Abstract要約: チェーン・オブ・思想(CoT)推論能力は、大規模言語モデル(LLM)の性能と説明可能性を向上させることを約束する。
我々は、最近リリースされた6つのLDMに対してゼロショットプロンプトによって誘導される異なる推論戦略を比較した。
この結果から,CoT推論戦略のメリットは,様々なモデルやデータセットに対して頑健であることが示唆された。
- 参考スコア(独自算出の注目度): 4.693905948827508
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emergent chain-of-thought (CoT) reasoning capabilities promise to improve
performance and explainability of large language models (LLMs). However,
uncertainties remain about how reasoning strategies formulated for previous
model generations generalize to new model generations and different datasets.
In this small-scale study, we compare different reasoning strategies induced by
zero-shot prompting across six recently released LLMs (davinci-002,
davinci-003, GPT-3.5-turbo, GPT-4, Flan-T5-xxl and Cohere command-xlarge) on a
mixture of six question-answering datasets, including datasets from scientific
and medical domains. Our findings demonstrate that while some variations in
effectiveness occur, gains from CoT reasoning strategies remain robust across
different models and datasets. GPT-4 has the most benefit from current
state-of-the-art reasoning strategies and exhibits the best performance by
applying a prompt previously discovered through automated discovery.
- Abstract(参考訳): emergent chain-of-thought (cot) 推論能力は、大規模言語モデル(llm)のパフォーマンスと説明可能性を改善することを約束する。
しかし、以前のモデル世代で定式化された推論戦略が、新しいモデル世代と異なるデータセットにどのように一般化するかについては、不確実性が残っている。
本研究では,最近リリースされた6つのLCM(davinci-002, davinci-003, GPT-3.5-turbo, GPT-4, Flan-T5-xxl, Cohere command-xlarge)を,科学的領域と医学領域のデータセットを含む6つの問合せデータセットで比較した。
この結果から,CoT推論戦略のメリットは,様々なモデルやデータセットに対して頑健であることが示唆された。
gpt-4は最先端の推論戦略の利点が最も多く、自動発見によって以前に発見されたプロンプトを適用することで最高のパフォーマンスを示す。
関連論文リスト
- Evaluating the Effectiveness of XAI Techniques for Encoder-Based Language Models [6.349503549199403]
本研究は,人間関係協定(HA),ロバスト性,一貫性,コントラスト性という,4つの主要な指標を用いた一般的な評価枠組みを提案する。
5種類のXAIカテゴリから6つの説明可能性手法の有効性を評価した。
その結果,モデルの単純化に基づくXAI法(LIME)は,複数の指標やモデルに対して一貫して優れていた。
論文 参考訳(メタデータ) (2025-01-26T03:08:34Z) - Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。
我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。
評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文 参考訳(メタデータ) (2024-12-12T21:29:00Z) - A NotSo Simple Way to Beat Simple Bench [0.0]
本稿では,大規模言語モデル(LLM)における推論能力向上のための新しい枠組みを提案する。
モデル精度とロバスト性を改善するために,グローバルな整合性チェックと組み合わせたマルチステッププロンプト戦略を提案する。
クロードは論理的整合性を維持するのに優れ, GPT-4oは探索的創造性を示すが, 曖昧なプロンプトに苦しむ。
論文 参考訳(メタデータ) (2024-12-12T16:04:31Z) - Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。
6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2024-12-04T19:20:32Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Decoding News Narratives: A Critical Analysis of Large Language Models in Framing Detection [10.301985230669684]
本稿では,ニュース見出しにおけるフレーミングの検出において,GPT-4,GPT-3.5 Turbo,FLAN-T5モデルを包括的に分析する。
我々はこれらのモデルを,ゼロショット,ドメイン内例による少数ショット,クロスドメイン例,モデルが予測を説明する設定など,さまざまなシナリオで評価した。
論文 参考訳(メタデータ) (2024-02-18T15:27:48Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - A Novel Benchmark for Few-Shot Semantic Segmentation in the Era of Foundation Models [7.428199805959228]
DINO V2は、様々なデータセットや適応手法において、他のモデルよりも大きなマージンで優れていることを示す。
一方、適応法は得られた結果にほとんど相違がなく、単純な線形プローブはより高度でより計算集約的な代替手段と競合する可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-01-20T19:50:51Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [71.42197262495056]
GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。
2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。
21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。
実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
論文 参考訳(メタデータ) (2023-03-18T14:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。