Fugu-MT 論文翻訳(概要): Diversity of Thought Improves Reasoning Abilities of Large Language Models

論文の概要: Diversity of Thought Improves Reasoning Abilities of Large Language Models

arxiv url: http://arxiv.org/abs/2310.07088v1
Date: Wed, 11 Oct 2023 00:01:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 00:55:11.346512
Title: Diversity of Thought Improves Reasoning Abilities of Large Language Models
Title（参考訳）: 思考の多様性が大規模言語モデルの推論能力を改善する
Authors: Ranjita Naik, Varun Chandrasekaran, Mert Yuksekgonul, Hamid Palangi, Besmira Nushi
Abstract要約: 大規模言語モデル(LLM)は複雑な推論を必要とする設定で苦労する。現在の手法では、入力プロンプトが固定され、復号戦略がアンサンブルに必要な多様性を導入することを期待している。 LLMからのフィードバックを募り、迅速な多様性を自動改善する手法を提案する。また、1つの推論コール内で多様なプロンプトが使用されるコスト効率の良い代替手段を提案する。
参考スコア（独自算出の注目度）: 26.149914503910235
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are documented to struggle in settings that require complex reasoning. Nevertheless, instructing the model to break down the problem into smaller reasoning steps (Wei et al., 2022), or ensembling various generations through modifying decoding steps (Wang et al., 2023) boosts performance. Current methods assume that the input prompt is fixed and expect the decoding strategies to introduce the diversity needed for ensembling. In this work, we relax this assumption and discuss how one can create and leverage variations of the input prompt as a means to diversity of thought to improve model performance. We propose a method that automatically improves prompt diversity by soliciting feedback from the LLM to ideate approaches that fit for the problem. We then ensemble the diverse prompts in our method DIV-SE (DIVerse reasoning path Self-Ensemble) across multiple inference calls. We also propose a cost-effective alternative where diverse prompts are used within a single inference call; we call this IDIV-SE (In-call DIVerse reasoning path Self-Ensemble). Under a fixed generation budget, DIV-SE and IDIV-SE outperform the previously discussed baselines using both GPT-3.5 and GPT-4 on several reasoning benchmarks, without modifying the decoding process. Additionally, DIV-SE advances state-of-the-art performance on recent planning benchmarks (Valmeekam et al., 2023), exceeding the highest previously reported accuracy by at least 29.6 percentage points on the most challenging 4/5 Blocksworld task. Our results shed light on how to enforce prompt diversity toward LLM reasoning and thereby improve the pareto frontier of the accuracy-cost trade-off.
Abstract（参考訳）: 大規模言語モデル(llm)は複雑な推論を必要とする設定で苦労するように文書化されている。それでも、モデルを小さな推論ステップ(Wei et al., 2022)に分解するか、復号ステップ(Wang et al., 2023)を変更して様々な世代をアンサンブルするように指示することで、性能が向上する。現在の手法では、入力プロンプトが固定され、復号戦略がアンサンブルに必要な多様性を導入することを期待している。本稿では、この仮定を緩和し、モデル性能を改善するための思考の多様性の手段として、入力プロンプトのバリエーションをいかに作成・活用できるかについて議論する。この問題に適合するアプローチを考案するために, LLMからのフィードバックを募り, 即時多様性を自動改善する手法を提案する。 DIV-SE (DIVerse reasoning path Self-Ensemble) の多様なプロンプトを複数の推論コールでアンサンブルする。我々はまた,このIDIV-SE(In-call DIVerse reasoning path Self-Ensemble)と呼ぶ,多様なプロンプトを単一の推論コール内で使用する,費用対効果の代替案を提案する。固定世代予算の下では、DIV-SEとIDIV-SEは、デコードプロセスを変更することなく、いくつかの推論ベンチマークにおいて、GPT-3.5とGPT-4の両方を使用して、従来議論されていたベースラインより優れている。さらにdiv-seは最新の計画ベンチマーク(valmeekam et al., 2023)の最先端性能を向上し、最も難しい4/5ブロックワールドタスクにおいて、少なくとも29.6ポイントの精度で報告されている。以上の結果から,LCM推論に即時的な多様性を付与し,精度・コストトレードオフのフロンティアを向上する方法について考察した。

関連論文リスト

Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [57.16286134405821]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。 GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文参考訳（メタデータ） (2025-06-18T21:15:59Z)
Intent Factored Generation: Unleashing the Diversity in Your Language Model [18.299668531350825]
多様性を高める方法はしばしばトークンレベルでのみ動作し、同じ応答を言い換える。本稿では, サンプリング過程を2段階に分解するIntent Factored Generationを提案する。本手法の有効性は,様々なタスクにまたがって実証する。
論文参考訳（メタデータ） (2025-06-11T12:26:45Z)
SDRT: Enhance Vision-Language Models by Self-Distillation with Diverse Reasoning Traces [11.462550020102935]
視覚言語モデルのための新しい自己蒸留フレームワークを提案する。我々は、多様なコンテキスト内質問を生成するために、視覚的推論タスクに適したプロンプトライブラリを採用する。次に,2段階の推論手法を用いて推論誘導応答を導出する。これらの反応は自己蒸留に使用され、モデルが推論プロセスの内部化を可能にする。
論文参考訳（メタデータ） (2025-03-03T17:24:42Z)
Diversified Sampling Improves Scaling LLM inference [31.18762591875725]
DivSamplingは、候補解の多様性を高めるために設計された、斬新で多用途なサンプリング技術である。理論解析により, 微妙な仮定の下では, 種々のプロンプトから発生する応答の誤り率は, 定常プロンプトによる応答よりも有意に低いことが示された。
論文参考訳（メタデータ） (2025-02-16T07:37:58Z)
Prompting Strategies for Enabling Large Language Models to Infer Causation from Correlation [68.58373854950294]
我々は因果推論に焦点をあて,相関情報に基づく因果関係の確立という課題に対処する。この問題に対して,元のタスクを固定的なサブクエストに分割するプロンプト戦略を導入する。既存の因果ベンチマークであるCorr2Causeに対するアプローチを評価した。
論文参考訳（メタデータ） (2024-12-18T15:32:27Z)
Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。 CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文参考訳（メタデータ） (2024-11-01T01:51:31Z)
QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文参考訳（メタデータ） (2024-08-20T03:06:48Z)
Venn Diagram Prompting : Accelerating Comprehension with Scaffolding Effect [0.0]
本稿ではVenn Diagram (VD) Promptingを紹介した。これはLLM(Large Language Models)が文書間で情報を組み合わせて合成できる革新的なプロンプト技術である。提案手法は,LLMの固有位置バイアスを除去し,入力情報のシーケンスに対する感度を除去し,回答の一貫性を高めることを目的としている。 4つの公開ベンチマークの問合せデータセットで実施された実験では、VDは連続的に一致したり、巧妙に製作された命令プロンプトのパフォーマンスを上回ります。
論文参考訳（メタデータ） (2024-06-08T06:27:26Z)
Pattern-Aware Chain-of-Thought Prompting in Large Language Models [26.641713417293538]
CoT(Chain-of- Thought)は言語モデルに複雑な多段階推論を誘導する。このようなタスクにおいて、基礎となる推論パターンがより重要な役割を果たすことを示す。本稿では,デモパターンの多様性を考慮したプロンプト手法であるPattern-Aware CoTを提案する。
論文参考訳（メタデータ） (2024-04-23T07:50:00Z)
A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文参考訳（メタデータ） (2024-02-10T11:14:53Z)
Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models [62.96551299003463]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。 TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。 TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文参考訳（メタデータ） (2023-10-06T01:40:09Z)
Language Models as Knowledge Bases for Visual Word Sense Disambiguation [1.8591405259852054]
本稿では,視覚言語変換器(VL)の検索性能向上のための知識向上手法を提案する。より具体的には、LLM(Large Language Models)に格納された知識は、ゼロショット方式で適切なプロンプトの助けを借りて検索される。提案手法は,LLMに格納された知識を視覚的単語センスの曖昧さを解決するために,様々な方法で活用する最初の方法である。
論文参考訳（メタデータ） (2023-10-03T11:11:55Z)
OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文参考訳（メタデータ） (2023-05-24T10:08:04Z)
Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文参考訳（メタデータ） (2023-04-23T13:54:39Z)
Active Prompting with Chain-of-Thought for Large Language Models [26.5029080638055]
本稿では,大規模言語モデルを異なるタスクに適応させる新しい手法であるActive-Promptを提案する。不確実性に基づくアクティブラーニングの関連問題からアイデアを借用することにより、不確実性を特徴づける指標をいくつか導入する。実験により,提案手法の優位性を実証し,8つの複雑な推論タスクの最先端化を図った。
論文参考訳（メタデータ） (2023-02-23T18:58:59Z)
Shepherd Pre-trained Language Models to Develop a Train of Thought: An Iterative Prompting Approach [30.117038793151004]
プレトレーニング言語モデル(PLM)は、複雑で多段階の推論手順を必要とするタスクを解決するために知識をリコールすることができない。人間がこれらのタスクのために「思考の訓練」を開発するのと同じように、どのようにしてPLMにそのような能力を持たせることができるのか? 本稿では,現在のステップのコンテキスト上で条件付きプロンプトを動的に合成することで,これらの制約に対処する反復型コンテキスト認識プロンプトを提案する。
論文参考訳（メタデータ） (2022-03-16T04:12:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。