Fugu-MT 論文翻訳(概要): Evidence to Generate (E2G): A Single-agent Two-step Prompting for Context Grounded and Retrieval Augmented Reasoning

論文の概要: Evidence to Generate (E2G): A Single-agent Two-step Prompting for Context Grounded and Retrieval Augmented Reasoning

arxiv url: http://arxiv.org/abs/2401.05787v1
Date: Thu, 11 Jan 2024 09:49:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-12 15:29:46.648357
Title: Evidence to Generate (E2G): A Single-agent Two-step Prompting for Context Grounded and Retrieval Augmented Reasoning
Title（参考訳）: 生成へのエビデンス(E2G): 文脈接地および検索強化推論のための単一エージェント2段階プロンプト
Authors: Md Rizwan Parvez
Abstract要約: Evidence to Generate(E2G)は、新しいシングルエージェント、2ステッププロンプトフレームワークである。証明されていない推論の主張の代わりに、E2Gは文脈で明確に言及された思考列にのみ焦点をあてる。ツールは、幅広い知識集約的な推論と生成タスクにおいて、顕著な結果を達成する。
参考スコア（独自算出の注目度）: 3.117335706912261
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While chain-of-thought (CoT) prompting has revolutionized how LLMs perform reasoning tasks, its current methods and variations (e.g, Self-consistency, ReACT, Reflexion, Tree-of-Thoughts (ToT), Cumulative Reasoning (CR)) suffer from limitations like slowness, limited context grounding, hallucination and inconsistent outputs. To overcome these challenges, we introduce Evidence to Generate (E2G), a novel single-agent, two-step prompting framework. Instead of unverified reasoning claims, this innovative approach leverages the power of "evidence for decision making" by first focusing exclusively on the thought sequences (the series of intermediate steps) explicitly mentioned in the context which then serve as extracted evidence, guiding the LLM's output generation process with greater precision and efficiency. This simple yet powerful approach unlocks the true potential of chain-of-thought like prompting, paving the way for faster, more reliable, and more contextually aware reasoning in LLMs. \tool achieves remarkable results robustly across a wide range of knowledge-intensive reasoning and generation tasks, surpassing baseline approaches with state-of-the-art LLMs. For example, (i) on LogiQA benchmark using GPT-4 as backbone model, \tool achieves a new state-of-the Accuracy of 53.8% exceeding CoT by 18%, ToT by 11%, CR by 9% (ii) a variant of E2G with PaLM2 outperforms the variable-shot performance of Gemini Ultra by 0.9 F1 points, reaching an F1 score of 83.3 on a subset of DROP.
Abstract（参考訳）: チェーン・オブ・シント(CoT)のプロンプトは、LCMが推論タスクを実行する方法に革命をもたらしたが、現在の方法とバリエーション(例えば、自己整合性、反応、反射、ツリー・オブ・ソート(ToT)、累積的推論(CR))は、緩やかさ、限られた文脈基盤、幻覚、一貫性のない出力といった制限に悩まされている。これらの課題を克服するために,新しい単一エージェント2段階プロンプトフレームワークであるEvidence to Generate(E2G)を紹介した。検証されていない推論の主張の代わりに、この革新的なアプローチは、まず文脈で明示的に言及される思考列(一連の中間ステップ)に焦点を合わせ、抽出された証拠として機能し、llmの出力生成プロセスをより精度と効率で導くことによって、"意思決定の明確さ"の力を利用する。このシンプルでパワフルなアプローチは、プロンプトや、より速く、より信頼性が高く、より文脈に合った推論への道を開くような、思考の連鎖の真の可能性を解き放ちます。 \tool は知識集約型推論および生成タスクにおいて,最先端の LLM を用いたベースラインアプローチを超越して,顕著な結果が得られる。例えば i) GPT-4をバックボーンモデルとして用いたLogiQAベンチマークでは,CoTを18%,ToTを11%,CRを9%以上,53.8%の新たな精度を実現している。 (ii) PaLM2によるE2Gの変種は、ジェミニウルトラの可変ショット性能を0.9F1ポイントで上回り、DROPのサブセットでF1スコア83.3に達する。

関連論文リスト

START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。 STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文参考訳（メタデータ） (2025-03-06T17:11:51Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示している。しかし、ベンチマークパフォーマンスと実世界のアプリケーションの間には大きな違いがある。 G-Pass@kはモデルの性能を連続的に評価する新しい評価指標である。本稿では,挑戦的,現代数学的な問題からなる動的ベンチマークであるLiveMathBenchを紹介する。
論文参考訳（メタデータ） (2024-12-17T18:12:47Z)
An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文参考訳（メタデータ） (2024-11-08T12:08:17Z)
Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。 LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文参考訳（メタデータ） (2024-11-06T22:02:30Z)
Can Language Models Perform Robust Reasoning in Chain-of-thought Prompting with Noisy Rationales? [19.13886382791074]
本稿では,大規模言語モデル (LLM) における未探索課題について考察する。雑音有理数の存在下での推論の堅牢性を評価するために,我々はNoRaデータセットを構築した。ノイズチェーン・オブ・シント(CD-CoT)を用いたコントラッシブデノケーション法を提案する。
論文参考訳（メタデータ） (2024-10-31T12:07:44Z)
Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文参考訳（メタデータ） (2024-09-19T02:20:06Z)
Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation [16.350747493026432]
CoT(Chain-of-Thought)パラダイムは,大規模言語モデル(LLM)の推論能力向上のための重要なアプローチとして登場した。中間的推論ステップを生成する前に戦略的知識を統合することでLCM性能を向上するための textbfStrategic Chain-of-Thought (SCoT) を提案する。 SCoTは1つのプロンプトの中で2段階のアプローチを採用し、まず効果的な問題解決戦略を導き、次に高品質なCoTパスと最終回答の生成を導くのに使用される。
論文参考訳（メタデータ） (2024-09-05T06:28:05Z)
Beyond Numeric Awards: In-Context Dueling Bandits with LLM Agents [25.825941077332182]
本稿では,Dueling Bandits (DB) の文脈における意思決定者としてのLarge Language Models (LLMs) の性能について,初めて考察する。以上の結果から,LPM,特にGPT-4 Turboはコンドルセットの勝者を迅速に同定し,現状のアルゴリズムよりも弱い後悔度で優れた結果を得た。これらの問題を解決するために,LLMの文脈内決定能力と従来のDBアルゴリズムから継承された理論的保証を両立するLEAD(LLM-Enhanced Adaptive Dueling)というハイブリッドアルゴリズムを導入する。
論文参考訳（メタデータ） (2024-07-02T02:18:14Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for In-Context Learning [66.85379279041128]
そこで本研究では,Dual Queries と Low-rank approximation Re- rank を利用して,文脈内学習のための例を自動選択するフレームワークを提案する。 DQ-LoRe は GPT-4 の自動選択において最先端の手法よりも優れ、92.5% から94.2% まで性能が向上した。
論文参考訳（メタデータ） (2023-10-04T16:44:37Z)
Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。 CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文参考訳（メタデータ） (2023-09-12T14:36:23Z)
Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-09-08T17:49:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。