論文の概要: Diversity of Thought Improves Reasoning Abilities of Large Language
Models
- arxiv url: http://arxiv.org/abs/2310.07088v1
- Date: Wed, 11 Oct 2023 00:01:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 00:55:11.346512
- Title: Diversity of Thought Improves Reasoning Abilities of Large Language
Models
- Title(参考訳): 思考の多様性が大規模言語モデルの推論能力を改善する
- Authors: Ranjita Naik, Varun Chandrasekaran, Mert Yuksekgonul, Hamid Palangi,
Besmira Nushi
- Abstract要約: 大規模言語モデル(LLM)は複雑な推論を必要とする設定で苦労する。
現在の手法では、入力プロンプトが固定され、復号戦略がアンサンブルに必要な多様性を導入することを期待している。
LLMからのフィードバックを募り、迅速な多様性を自動改善する手法を提案する。
また、1つの推論コール内で多様なプロンプトが使用されるコスト効率の良い代替手段を提案する。
- 参考スコア(独自算出の注目度): 26.149914503910235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are documented to struggle in settings that
require complex reasoning. Nevertheless, instructing the model to break down
the problem into smaller reasoning steps (Wei et al., 2022), or ensembling
various generations through modifying decoding steps (Wang et al., 2023) boosts
performance. Current methods assume that the input prompt is fixed and expect
the decoding strategies to introduce the diversity needed for ensembling. In
this work, we relax this assumption and discuss how one can create and leverage
variations of the input prompt as a means to diversity of thought to improve
model performance. We propose a method that automatically improves prompt
diversity by soliciting feedback from the LLM to ideate approaches that fit for
the problem. We then ensemble the diverse prompts in our method DIV-SE (DIVerse
reasoning path Self-Ensemble) across multiple inference calls. We also propose
a cost-effective alternative where diverse prompts are used within a single
inference call; we call this IDIV-SE (In-call DIVerse reasoning path
Self-Ensemble). Under a fixed generation budget, DIV-SE and IDIV-SE outperform
the previously discussed baselines using both GPT-3.5 and GPT-4 on several
reasoning benchmarks, without modifying the decoding process. Additionally,
DIV-SE advances state-of-the-art performance on recent planning benchmarks
(Valmeekam et al., 2023), exceeding the highest previously reported accuracy by
at least 29.6 percentage points on the most challenging 4/5 Blocksworld task.
Our results shed light on how to enforce prompt diversity toward LLM reasoning
and thereby improve the pareto frontier of the accuracy-cost trade-off.
- Abstract(参考訳): 大規模言語モデル(llm)は複雑な推論を必要とする設定で苦労するように文書化されている。
それでも、モデルを小さな推論ステップ(Wei et al., 2022)に分解するか、復号ステップ(Wang et al., 2023)を変更して様々な世代をアンサンブルするように指示することで、性能が向上する。
現在の手法では、入力プロンプトが固定され、復号戦略がアンサンブルに必要な多様性を導入することを期待している。
本稿では、この仮定を緩和し、モデル性能を改善するための思考の多様性の手段として、入力プロンプトのバリエーションをいかに作成・活用できるかについて議論する。
この問題に適合するアプローチを考案するために, LLMからのフィードバックを募り, 即時多様性を自動改善する手法を提案する。
DIV-SE (DIVerse reasoning path Self-Ensemble) の多様なプロンプトを複数の推論コールでアンサンブルする。
我々はまた,このIDIV-SE(In-call DIVerse reasoning path Self-Ensemble)と呼ぶ,多様なプロンプトを単一の推論コール内で使用する,費用対効果の代替案を提案する。
固定世代予算の下では、DIV-SEとIDIV-SEは、デコードプロセスを変更することなく、いくつかの推論ベンチマークにおいて、GPT-3.5とGPT-4の両方を使用して、従来議論されていたベースラインより優れている。
さらにdiv-seは最新の計画ベンチマーク(valmeekam et al., 2023)の最先端性能を向上し、最も難しい4/5ブロックワールドタスクにおいて、少なくとも29.6ポイントの精度で報告されている。
以上の結果から,LCM推論に即時的な多様性を付与し,精度・コストトレードオフのフロンティアを向上する方法について考察した。
関連論文リスト
- Pattern-Aware Chain-of-Thought Prompting in Large Language Models [26.641713417293538]
CoT(Chain-of- Thought)は言語モデルに複雑な多段階推論を誘導する。
このようなタスクにおいて、基礎となる推論パターンがより重要な役割を果たすことを示す。
本稿では,デモパターンの多様性を考慮したプロンプト手法であるPattern-Aware CoTを提案する。
論文 参考訳(メタデータ) (2024-04-23T07:50:00Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [76.30313058201182]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Noisy Exemplars Make Large Language Models More Robust: A
Domain-Agnostic Behavioral Analysis [10.06218778776515]
ドメインに依存しない摂動によるマルチホップ推論タスクにおいて,大規模言語モデル(LLM)の堅牢性をテストするための体系的手法を提案する。
モデルは、単語を同義語に置き換えるなど、特定の摂動に対してより敏感であることがわかった。
また,プロンプトにおける摂動例の割合の増加は,数発のプロンプト手法の堅牢性を向上させることを実証した。
論文 参考訳(メタデータ) (2023-11-01T03:15:05Z) - Thought Propagation: An Analogical Approach to Complex Reasoning with
Large Language Models [70.76692652007469]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。
TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。
TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文 参考訳(メタデータ) (2023-10-06T01:40:09Z) - Language Models as Knowledge Bases for Visual Word Sense Disambiguation [1.8591405259852054]
本稿では,視覚言語変換器(VL)の検索性能向上のための知識向上手法を提案する。
より具体的には、LLM(Large Language Models)に格納された知識は、ゼロショット方式で適切なプロンプトの助けを借りて検索される。
提案手法は,LLMに格納された知識を視覚的単語センスの曖昧さを解決するために,様々な方法で活用する最初の方法である。
論文 参考訳(メタデータ) (2023-10-03T11:11:55Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z) - Active Prompting with Chain-of-Thought for Large Language Models [16.9127713032405]
本稿では,大規模言語モデルを異なるタスクに適応させる新しい手法であるActive-Promptを提案する。
不確実性に基づくアクティブラーニングの関連問題からアイデアを借用することにより、不確実性を特徴づける指標をいくつか導入する。
実験により,提案手法の優位性を実証し,8つの複雑な推論タスクの最先端化を図った。
論文 参考訳(メタデータ) (2023-02-23T18:58:59Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z) - Shepherd Pre-trained Language Models to Develop a Train of Thought: An
Iterative Prompting Approach [30.117038793151004]
プレトレーニング言語モデル(PLM)は、複雑で多段階の推論手順を必要とするタスクを解決するために知識をリコールすることができない。
人間がこれらのタスクのために「思考の訓練」を開発するのと同じように、どのようにしてPLMにそのような能力を持たせることができるのか?
本稿では,現在のステップのコンテキスト上で条件付きプロンプトを動的に合成することで,これらの制約に対処する反復型コンテキスト認識プロンプトを提案する。
論文 参考訳(メタデータ) (2022-03-16T04:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。