論文の概要: Nash CoT: Multi-Path Inference with Preference Equilibrium
- arxiv url: http://arxiv.org/abs/2407.07099v1
- Date: Tue, 18 Jun 2024 07:46:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 13:58:01.830685
- Title: Nash CoT: Multi-Path Inference with Preference Equilibrium
- Title(参考訳): Nash CoT: 優先平衡を用いたマルチパス推論
- Authors: Ziqi Zhang, Cunxiang Wang, Xiong Xiao, Yue Zhang, Donglin Wang,
- Abstract要約: 大型言語モデル(LLM)の推論能力を高めるための強力な技術として、チェーン・オブ・シント(CoT)プロンプトが登場した。
我々は、シンボリック言語デコーディングを優先コンセンサスゲームとして概念化し、各ローカルパス内にバイプレイヤゲームシステムを構築し、ナッシュチェーン・オブ・ソート(ナッシュCoT)を紹介した。
我々は,アラビア推論,コモンセンス質問応答,推論など,さまざまな推論タスクにおいて,推論パスを減らしながら,自己整合性と比較して同等あるいは改善された性能を実現する。
- 参考スコア(独自算出の注目度): 40.50811042423615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-thought (CoT) prompting has emerged as a powerful technique for enhancing the reasoning capabilities of Large Language Models (LLMs) on complex problems. Among CoT-related studies, self-consistency (Multi-path inference with answer filtering through voting) involves generating multiple reasoning paths using the CoT framework and then selecting the most frequently produced outputs standing out as a concise yet competitive approach. While self-consistency has indeed led to the improvements in LLM inference, the use of multi-path inference also escalates deployment costs. Therefore, maintaining the performance benefits of self-consistency inherited from multi-path inference while reducing the inference costs holds significant value. In this research, we conceptualize language decoding as a preference consensus game, constructing a bi-player gaming system within each local path, and introduce Nash Chain-of-Thought (Nash CoT). Specifically, for a given question, we leverage LLM to autonomously select the contextually relevant template and generate outputs guided by this template, aiming to reach Nash Equilibrium alongside normal generation in each path. This approach allows us to achieve comparable or improved performance compared to self-consistency while using fewer inference paths on various inference tasks, including Arabic reasoning, Commonsense Question answering, and Symbolic inference.
- Abstract(参考訳): CoT(Chain-of- Thought)プロンプトは、複雑な問題に対するLLM(Large Language Models)の推論能力を高める強力なテクニックとして登場した。
CoT関連の研究の中で、自己整合性(投票による回答フィルタリングを伴うマルチパス推論)は、CoTフレームワークを使用して複数の推論パスを生成し、簡潔で競争的なアプローチとして、最も頻繁に生成されるアウトプットを選択する。
自己整合性はLLM推論の改善につながるが、マルチパス推論の使用はデプロイメントコストを増大させる。
したがって、マルチパス推論から受け継いだ自己整合性の性能上の利点を維持しつつ、推論コストを削減できることは大きな意味を持つ。
本研究では,言語デコーディングを優先コンセンサスゲームとして概念化し,各経路内にバイプレイヤゲームシステムを構築し,ナッシュチェーン・オブ・ソート(ナッシュCoT)を紹介した。
具体的には, LLM を利用して文脈関連テンプレートを自律的に選択し, このテンプレートで導かれる出力を生成する。
このアプローチでは,アラビア推論,コモンセンス質問応答,シンボリック推論など,さまざまな推論タスクにおいて,推論パスを少なくしながら,自己整合性と比較して同等あるいは改善されたパフォーマンスを実現することができる。
関連論文リスト
- Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs [37.147529569445396]
Tree-of- Thought (ToT) 法では、ツリー探索を用いて推論空間を広範囲に探索し、CoTデコーディングが見落としてしまうかもしれない推論経路をよりよく見つける。
ToTで構築された検索ツリーを利用した細調整言語モデル(LLMs)により、CoTは同様のあるいはより良いパフォーマンスを実現することができる。
これはCPO(Chain of Preference Optimization)によって実現され、LLMはCoT推論パスの各ステップをToTのステップと整列するように微調整される。
論文 参考訳(メタデータ) (2024-06-13T14:07:02Z) - Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。
このアプローチは、正しい答えが少数派である場合に失敗する。
階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文 参考訳(メタデータ) (2024-05-21T17:12:19Z) - ERA-CoT: Improving Chain-of-Thought through Entity Relationship Analysis [20.24915029448926]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて、賞賛できる成果を達成している。
これらの課題は、多段階の推論を必要とする暗黙の関係の存在から生じる。
本稿では,エンティティ間の関係を捉えることで,LLMのコンテキスト理解を支援する新しいアプローチであるERA-CoTを提案する。
論文 参考訳(メタデータ) (2024-03-11T17:18:53Z) - Identifying Factual Inconsistencies in Summaries: Grounding LLM Inference via Task Taxonomy [48.29181662640212]
事実的矛盾は、生成モデルによる忠実な要約にとって重要なハードルとなる。
我々は,要約中の不整合事実のキーエラータイプを集約し,ゼロショットと教師付きパラダイムの両方を容易にするためにそれらを組み込んだ。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - CoF-CoT: Enhancing Large Language Models with Coarse-to-Fine
Chain-of-Thought Prompting for Multi-domain NLU Tasks [46.862929778121675]
Chain-of-Thoughtプロンプトは推論タスクで人気があるが、自然言語理解(NLU)への応用は未検討である。
大規模言語モデル (LLMs) の多段階的推論により動機付け, CoF-CoT (Coarse-to-Fine Chain-of-Thought) アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-23T06:54:51Z) - Provable Benefits of Multi-task RL under Non-Markovian Decision Making
Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。
このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。
提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:50:28Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。