論文の概要: Evidence to Generate (E2G): A Single-agent Two-step Prompting for
Context Grounded and Retrieval Augmented Reasoning
- arxiv url: http://arxiv.org/abs/2401.05787v1
- Date: Thu, 11 Jan 2024 09:49:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 15:29:46.648357
- Title: Evidence to Generate (E2G): A Single-agent Two-step Prompting for
Context Grounded and Retrieval Augmented Reasoning
- Title(参考訳): 生成へのエビデンス(E2G): 文脈接地および検索強化推論のための単一エージェント2段階プロンプト
- Authors: Md Rizwan Parvez
- Abstract要約: Evidence to Generate(E2G)は、新しいシングルエージェント、2ステッププロンプトフレームワークである。
証明されていない推論の主張の代わりに、E2Gは文脈で明確に言及された思考列にのみ焦点をあてる。
ツールは、幅広い知識集約的な推論と生成タスクにおいて、顕著な結果を達成する。
- 参考スコア(独自算出の注目度): 3.117335706912261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While chain-of-thought (CoT) prompting has revolutionized how LLMs perform
reasoning tasks, its current methods and variations (e.g, Self-consistency,
ReACT, Reflexion, Tree-of-Thoughts (ToT), Cumulative Reasoning (CR)) suffer
from limitations like slowness, limited context grounding, hallucination and
inconsistent outputs. To overcome these challenges, we introduce Evidence to
Generate (E2G), a novel single-agent, two-step prompting framework. Instead of
unverified reasoning claims, this innovative approach leverages the power of
"evidence for decision making" by first focusing exclusively on the thought
sequences (the series of intermediate steps) explicitly mentioned in the
context which then serve as extracted evidence, guiding the LLM's output
generation process with greater precision and efficiency. This simple yet
powerful approach unlocks the true potential of chain-of-thought like
prompting, paving the way for faster, more reliable, and more contextually
aware reasoning in LLMs. \tool achieves remarkable results robustly across a
wide range of knowledge-intensive reasoning and generation tasks, surpassing
baseline approaches with state-of-the-art LLMs. For example, (i) on LogiQA
benchmark using GPT-4 as backbone model, \tool achieves a new state-of-the
Accuracy of 53.8% exceeding CoT by 18%, ToT by 11%, CR by 9% (ii) a variant of
E2G with PaLM2 outperforms the variable-shot performance of Gemini Ultra by 0.9
F1 points, reaching an F1 score of 83.3 on a subset of DROP.
- Abstract(参考訳): チェーン・オブ・シント(CoT)のプロンプトは、LCMが推論タスクを実行する方法に革命をもたらしたが、現在の方法とバリエーション(例えば、自己整合性、反応、反射、ツリー・オブ・ソート(ToT)、累積的推論(CR))は、緩やかさ、限られた文脈基盤、幻覚、一貫性のない出力といった制限に悩まされている。
これらの課題を克服するために,新しい単一エージェント2段階プロンプトフレームワークであるEvidence to Generate(E2G)を紹介した。
検証されていない推論の主張の代わりに、この革新的なアプローチは、まず文脈で明示的に言及される思考列(一連の中間ステップ)に焦点を合わせ、抽出された証拠として機能し、llmの出力生成プロセスをより精度と効率で導くことによって、"意思決定の明確さ"の力を利用する。
このシンプルでパワフルなアプローチは、プロンプトや、より速く、より信頼性が高く、より文脈に合った推論への道を開くような、思考の連鎖の真の可能性を解き放ちます。
\tool は知識集約型推論および生成タスクにおいて,最先端の LLM を用いたベースラインアプローチを超越して,顕著な結果が得られる。
例えば
i) GPT-4をバックボーンモデルとして用いたLogiQAベンチマークでは,CoTを18%,ToTを11%,CRを9%以上,53.8%の新たな精度を実現している。
(ii) PaLM2によるE2Gの変種は、ジェミニウルトラの可変ショット性能を0.9F1ポイントで上回り、DROPのサブセットでF1スコア83.3に達する。
関連論文リスト
- EntGPT: Linking Generative Large Language Models with Knowledge Bases [9.067856411512427]
大規模言語モデルが実際に正しい出力を生成する能力は、いまだに探索されていない。
我々は3段階のハードプロンピング法を設計し,LLMのED性能を教師付き微調整なしで探究する。
我々は、同様のプロンプトと応答で、インストラクションチューニング(IT)により、知識基盤能力をさらに向上する。
論文 参考訳(メタデータ) (2024-02-09T19:16:27Z) - EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty [28.07947754770082]
機能(第2層から第2層まで)の自己回帰はトークンレベルよりも単純です。
機能(第2から第2層)レベルの固有の不確実性は、そのパフォーマンスを制約します。
論文 参考訳(メタデータ) (2024-01-26T18:59:01Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - Compresso: Structured Pruning with Collaborative Prompting Learns
Compact Large Language Models [15.471290825100075]
我々はCompressoと呼ばれる大規模言語モデルを構築するための新しいパラダイムを導入する。
提案手法は,資源効率の高いプルーニングアルゴリズムとLLM自体の協調により,学習過程における最適プルーニング決定を学習する。
実験では、Compressoは様々な空間比でワンショットプルーニングベースラインを著しく上回り、それぞれ2.21%、11.43%、7.04%、および4.81%のスコアをコモンセンス推論、読解理解、MMLU、BBHベンチマークで達成している。
論文 参考訳(メタデータ) (2023-10-08T05:16:28Z) - Resprompt: Residual Connection Prompting Advances Multi-Step Reasoning in Large Language Models [73.4425450752596]
チェーン・オブ・シント(CoT)のプロンプトによって、大きな言語モデル(LLM)の推論の可能性は著しく解放された。
しかし、標準的なCoTは複数の推論ステップを必要とする問題では効果が低い。
LLMにおける多段階推論を推し進める新しいプロンプト戦略であるRESPROMPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T08:56:28Z) - DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for
In-Context Learning [66.85379279041128]
そこで本研究では,Dual Queries と Low-rank approximation Re- rank を利用して,文脈内学習のための例を自動選択するフレームワークを提案する。
DQ-LoRe は GPT-4 の自動選択において最先端の手法よりも優れ、92.5% から94.2% まで性能が向上した。
論文 参考訳(メタデータ) (2023-10-04T16:44:37Z) - Beyond Task Performance: Evaluating and Reducing the Flaws of Large
Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。
トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。
ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:59Z) - Re-Reading Improves Reasoning in Large Language Models [91.96027668854406]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。