論文の概要: R$^3$ Prompting: Review, Rephrase and Resolve for Chain-of-Thought
Reasoning in Large Language Models under Noisy Context
- arxiv url: http://arxiv.org/abs/2310.16535v1
- Date: Wed, 25 Oct 2023 10:34:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 15:25:04.333241
- Title: R$^3$ Prompting: Review, Rephrase and Resolve for Chain-of-Thought
Reasoning in Large Language Models under Noisy Context
- Title(参考訳): R$^3$ Prompting: 騒々しい文脈下での大規模言語モデルにおける連鎖推論のレビュー, 言い換え, 解決
- Authors: Qingyuan Tian, Hanlun Zhu, Lei Wang, Yang Li, Yunshi Lan
- Abstract要約: 雑音条件下でのChain-of-Thought(CoT)推論のための新しいプロンプト手法,すなわちR$3$プロンプトを提案する。
実験の結果,R$3$は,雑音条件下での5つの推論タスクにおいて,既存のCoTプロンプトよりも有意に優れていた。
- 参考スコア(独自算出の注目度): 12.475979274233458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the help of Chain-of-Thought (CoT) prompting, Large Language Models
(LLMs) have achieved remarkable performance on various reasoning tasks.
However, most of them have been evaluated under noise-free context and the
dilemma for LLMs to produce inaccurate results under the noisy context has not
been fully investigated. Existing studies utilize trigger sentences to
encourage LLMs to concentrate on the relevant information but the trigger has
limited effect on final answer prediction. Inspired by interactive CoT method,
where intermediate reasoning steps are promoted by multiple rounds of
interaction between users and LLMs, we propose a novel prompting method, namely
R$^3$ prompting, for CoT reasoning under noisy context. Specifically, R$^3$
prompting interacts with LLMs to perform key sentence extraction, variable
declaration and answer prediction, which corresponds to a thought process of
reviewing, rephrasing and resolving. The responses generated at the last
interaction will perform as hints to guide toward the responses of the next
interaction. Our experiments show that R$^3$ prompting significantly
outperforms existing CoT prompting methods on five reasoning tasks under noisy
context. With GPT-3.5-turbo, we observe 3.7% accuracy improvement on average on
the reasoning tasks under noisy context compared to the most competitive
prompting baseline. More analyses and ablation studies show the robustness and
generalization of R$^3$ prompting method in solving reasoning tasks in LLMs
under noisy context.
- Abstract(参考訳): CoT(Chain-of-Thought)の助けを借りて、LLM(Large Language Models)は様々な推論タスクにおいて顕著なパフォーマンスを達成した。
しかし,そのほとんどは雑音のない環境下で評価されており,騒音条件下での不正確な結果を生成するLLMのジレンマは十分に研究されていない。
既存の研究では、トリガー文を利用して、LSMが関連する情報に集中するように促しているが、トリガーは最終回答の予測に限られている。
ユーザとLLM間の複数ラウンドの相互作用によって中間的推論ステップが促進される対話型CoT法に着想を得て,雑音条件下でのCoT推論のための新しいプロンプト法R$^3$プロンプト法を提案する。
具体的には、R$^3$プロンプトはLLMと対話して、キー文抽出、変数宣言、応答予測を実行する。
最後のインタラクションで生成された応答は、次のインタラクションの応答に向かうためのヒントとして実行される。
実験の結果,R$^3$は,雑音条件下での5つの推論タスクにおいて,既存のCoTプロンプトよりも有意に優れていた。
GPT-3.5-turboでは,雑音条件下での推論作業における平均3.7%の精度向上が観測された。
さらなる分析とアブレーション研究は、雑音条件下でのLLMにおける推論タスクの解法におけるR$^3$プロンプト法の堅牢性と一般化を示している。
関連論文リスト
- Can large language models explore in-context? [87.49311128190143]
単純なマルチアームバンディット環境において,エージェントとして大規模言語モデルをデプロイする。
モデルが実質的な介入なしには、探索にしっかりと関わっていないことが分かっています。
論文 参考訳(メタデータ) (2024-03-22T17:50:43Z) - Comparing Plausibility Estimates in Base and Instruction-Tuned Large Language Models [50.15455336684986]
本研究では,英語文の可読性タスクにおいて,暗黙的プロンプトと暗黙的推定を用いて,ベースおよび命令調整型LLMの性能を比較した。
実験1では、モデルアーキテクチャと可視性データセットを通して、ログ可能性(textitLL$)スコアが文の可視性を示す最も信頼性の高い指標であることが示されている。
実験2では、モデル間の$textitLL$スコアが、期待される方法でコンテキストによって変調されることを示し、コンテキストに敏感な3つのメトリクスで高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-03-21T22:08:44Z) - Chain-of-Thought Reasoning Without Prompting [48.351650919819456]
CoT推論パスは、テキストデコーディングプロセスを変更するだけで、事前訓練されたLCMから引き出すことができる。
我々は、デコードパスにおけるCoTの存在は、モデルのデコードされた回答に対する高い信頼と相関していることを観察する。
論文 参考訳(メタデータ) (2024-02-15T18:55:41Z) - Generating Chain-of-Thoughts with a Direct Pairwise-Comparison Approach
to Searching for the Most Promising Intermediate Thought [75.42560889109559]
思考の連鎖(CoT)法は、大きな言語モデルにステップバイステップの推論を導くために提案された。
大規模言語モデル(LLM)による評価は一般的にノイズが多く、信頼性が低いため、生成プロセスの誤解を招く可能性がある。
本稿では,最も有望な思考を直接識別する比較に基づくCoT生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-10T09:51:03Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Revisiting Large Language Models as Zero-shot Relation Extractors [8.953462875381888]
リレーショナル抽出(RE)は、ゼロショット設定下であっても、一定のラベル付きまたはラベルなしのデータを一貫して含む。
近年の研究では、大きな言語モデル(LLM)が、単に自然言語のプロンプトを与えられただけで、新しいタスクにうまく移行していることが示されている。
本研究はゼロショット関係抽出器としてLLMを探索することに焦点を当てる。
論文 参考訳(メタデータ) (2023-10-08T06:17:39Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。