論文の概要: Take a Step Back: Evoking Reasoning via Abstraction in Large Language
Models
- arxiv url: http://arxiv.org/abs/2310.06117v1
- Date: Mon, 9 Oct 2023 19:48:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 23:33:05.098359
- Title: Take a Step Back: Evoking Reasoning via Abstraction in Large Language
Models
- Title(参考訳): ステップバック:大規模言語モデルの抽象化による推論の回避
- Authors: Huaixiu Steven Zheng, Swaroop Mishra, Xinyun Chen, Heng-Tze Cheng, Ed
H. Chi, Quoc V Le and Denny Zhou
- Abstract要約: Step-Back Promptingは、LLMが抽象化を行い、特定の詳細を含むインスタンスからハイレベルな概念と第一原則を導出することを可能にする。
本研究では, PaLM-2L モデルを用いたステップバック・プロンプティングの実験を行い, 幅広い課題に挑戦する推論集約タスクにおいて, かなりの性能向上を観測する。
例えば、Step-Back PromptingはMMLU物理化学における PaLM-2L のパフォーマンスを7%と11%、TimeQA を27%、MuSiQue を7%改善する。
- 参考スコア(独自算出の注目度): 122.19845578690466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Step-Back Prompting, a simple prompting technique that enables
LLMs to do abstractions to derive high-level concepts and first principles from
instances containing specific details. Using the concepts and principles to
guide the reasoning steps, LLMs significantly improve their abilities in
following a correct reasoning path towards the solution. We conduct experiments
of Step-Back Prompting with PaLM-2L models and observe substantial performance
gains on a wide range of challenging reasoning-intensive tasks including STEM,
Knowledge QA, and Multi-Hop Reasoning. For instance, Step-Back Prompting
improves PaLM-2L performance on MMLU Physics and Chemistry by 7% and 11%,
TimeQA by 27%, and MuSiQue by 7%.
- Abstract(参考訳): これは、llmが抽象化して、特定の詳細を含むインスタンスからハイレベルな概念と最初の原則を導き出すシンプルなプロンプトテクニックです。
推論ステップを導くために概念と原則を使用すると、llmはソリューションへの正しい推論パスに従う能力を大幅に向上します。
本研究では,PLM-2Lモデルを用いたステップバック・プロンプティングの実験を行い,STEM,知識QA,マルチホップ推論など,多岐にわたる推論集約的なタスクにおいて,大幅な性能向上を観測する。
例えば、Step-Back PromptingはMMLU物理化学における PaLM-2L のパフォーマンスを7%と11%、TimeQA を27%、MuSiQue を7%改善する。
関連論文リスト
- Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Can LLM be a Good Path Planner based on Prompt Engineering? Mitigating the Hallucination for Path Planning [2.313664320808389]
本研究では、空間-関係変換とカリキュラムQ-Learning(S2RCQL)という革新的なモデルを提案する。
そこで我々は,Qラーニングに基づく経路計画アルゴリズムを設計し,文脈不整合の幻覚を緩和する。
プロンプトの補助情報として状態反応のQ-値を用いて,LLMの幻覚を補正する。
論文 参考訳(メタデータ) (2024-08-23T16:02:54Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Reinforcement Learning Problem Solving with Large Language Models [0.0]
大規模言語モデル (LLM) には膨大な量の世界知識があり、自然言語処理 (NLP) タスクの性能向上のために様々な分野に応用できるようになっている。
これはまた、人間とAIシステム間の会話に基づく対話による、意図した問題を解決するための、よりアクセスしやすいパラダイムを促進する。
研究科学者」と「レガリー・マター・インテーク」の2つの詳細なケーススタディを通して、我々のアプローチの実践性を示す。
論文 参考訳(メタデータ) (2024-04-29T12:16:08Z) - Hint-enhanced In-Context Learning wakes Large Language Models up for knowledge-intensive tasks [54.153914606302486]
大規模言語モデル(LLM)の規模拡大に伴い、インコンテキスト学習(ICL)能力が出現した。
我々は、オープンドメイン質問応答におけるICLのパワーを探るため、Hint-enhanced In-Context Learning(HICL)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-03T14:39:20Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Metacognitive Prompting Improves Understanding in Large Language Models [12.112914393948415]
メタ認知プロンプト(MP)は,人間の内省的推論プロセスにインスパイアされた戦略である。
我々は10の自然言語理解(NLU)データセットにまたがる4つの先行するLarge Language Model(LLM)の実験を行った。
MPは、一般的なNLUタスクとドメイン固有のNLUタスクの両方において、既存のプロンプトメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2023-08-10T05:10:17Z) - Toward Efficient Language Model Pretraining and Downstream Adaptation
via Self-Evolution: A Case Study on SuperGLUE [203.65227947509933]
このレポートでは、スーパーGLUEのリーダーボードにJDExplore d-teamのVega v2を提出しました。
SuperGLUEは、広く使われている汎用言語理解評価(GLUE)ベンチマークよりも難易度が高く、8つの難しい言語理解タスクを含んでいる。
論文 参考訳(メタデータ) (2022-12-04T15:36:18Z) - Large Language Models are Zero-Shot Reasoners [28.6899375595088]
思考の連鎖(CoT)プロンプトは、ステップバイステップの回答例を通して複雑な多段階推論を引き出す手法である。
LLMは、各回答の前に単に「ステップバイステップ」を追加して、まともなゼロショット推論子であることを示す。
実験結果から,同一のプロンプトテンプレートを用いたZero-shot-CoTはゼロショットLLM性能を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-24T09:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。