論文の概要: Universal Self-Consistency for Large Language Model Generation
- arxiv url: http://arxiv.org/abs/2311.17311v1
- Date: Wed, 29 Nov 2023 02:07:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 22:51:58.509306
- Title: Universal Self-Consistency for Large Language Model Generation
- Title(参考訳): 大言語モデル生成のための普遍的自己整合性
- Authors: Xinyun Chen, Renat Aksitov, Uri Alon, Jie Ren, Kefan Xiao, Pengcheng
Yin, Sushant Prakash, Charles Sutton, Xuezhi Wang, Denny Zhou
- Abstract要約: CoT(Self-Consistency with chain-of- Thought prompting)は、困難なタスクにおいて顕著なパフォーマンス向上を示す。
本稿では,大規模言語モデル(LLM)を活用し,最も一貫した回答を選択するユニバーサル自己整合性(USC)を提案する。
- 参考スコア(独自算出の注目度): 72.6761480346095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-consistency with chain-of-thought prompting (CoT) has demonstrated
remarkable performance gains on various challenging tasks, by utilizing
multiple reasoning paths sampled from large language models (LLMs). However,
self-consistency relies on the answer extraction process to aggregate multiple
solutions, which is not applicable to free-form answers. In this work, we
propose Universal Self-Consistency (USC), which leverages LLMs themselves to
select the most consistent answer among multiple candidates. We evaluate USC on
a variety of benchmarks, including mathematical reasoning, code generation,
long-context summarization, and open-ended question answering. On open-ended
generation tasks where the original self-consistency method is not applicable,
USC effectively utilizes multiple samples and improves the performance. For
mathematical reasoning, USC matches the standard self-consistency performance
without requiring the answer formats to be similar. Finally, without access to
execution results, USC also matches the execution-based voting performance on
code generation.
- Abstract(参考訳): CoTは,大規模言語モデル(LLM)から抽出した複数の推論経路を利用することにより,様々な課題に対して顕著な性能向上を示した。
しかし、自己整合性は解の抽出過程に依存して複数の解を集約し、自由形式の解には適用できない。
本研究では,LLM自体を活用し,複数の候補の中から最も一貫した回答を選択するユニバーサル自己整合性(USC)を提案する。
我々は,数理推論,コード生成,long-context summarization,open-ended question answeringなど,さまざまなベンチマークでuscを評価した。
従来の自己整合性手法が適用できないオープンエンド生成タスクにおいて,USCは複数のサンプルを有効利用し,性能を向上する。
数学的推論では、USCは解答形式を類似させることなく、標準的な自己整合性能と一致する。
最後に、USCは実行結果にアクセスせずに、コード生成の実行ベースの投票パフォーマンスにマッチする。
関連論文リスト
- Soft Self-Consistency Improves Language Model Agents [62.99249344291538]
現在の「サンプルとセレクト」メソッドは、回答を得るために多数決に頼っている。
Soft Self-Consistency (Soft-SC) は、SCの不連続スコアをモデル確率から計算した連続スコアに置き換える。
ソフトSCは、bashプログラムの絶対的な成功率でSCを1.3%上回り、オンラインショッピングでは6.6%増、インタラクティブホームゲームでは4.7%増となっている。
論文 参考訳(メタデータ) (2024-02-20T18:22:38Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Enhancing Large Language Models in Coding Through Multi-Perspective
Self-Consistency [137.29711672412952]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示した。
しかし、単一の試みで正しいソリューションを生成することは依然として課題である。
本稿では,MPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T14:23:26Z) - Universal Self-Adaptive Prompting [60.67460565566514]
Universal Self-Adaptive Prompting (USP) はゼロショット学習に適した自動プロンプト設計手法である。
USPは普遍的なプロンプトを達成するために、可能なNLPタスクを3つの可能なタスクタイプのうちの1つに分類する。
我々は,PaLMおよびPaLM 2モデルを用いてUSPを評価し,標準ゼロショットベースラインよりもかなり強い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T09:09:48Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。
RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning
and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。
コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。
実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文 参考訳(メタデータ) (2023-05-19T17:49:25Z) - Federated Prompting and Chain-of-Thought Reasoning for Improving LLMs
Answering [13.735277588793997]
クラウドベースLarge Language Models (LLMs) を用いた分散ユーザによる質問に対する回答精度の向上について検討する。
本研究は,同じ数学的推論ステップと問題解決手順を含む類似のクエリをユーザが質問する典型的な状況に焦点を当てる。
本稿では,自己整合性(SC)とCoT(Chain-of-Thought)技術を用いて,分散同義語質問を改善することを提案する。
論文 参考訳(メタデータ) (2023-04-27T01:48:03Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。