論文の概要: Nash CoT: Multi-Path Inference with Preference Equilibrium
- arxiv url: http://arxiv.org/abs/2407.07099v3
- Date: Mon, 30 Dec 2024 13:43:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:03:34.630795
- Title: Nash CoT: Multi-Path Inference with Preference Equilibrium
- Title(参考訳): Nash CoT: 優先平衡を用いたマルチパス推論
- Authors: Ziqi Zhang, Cunxiang Wang, Xiong Xiao, Yue Zhang, Donglin Wang,
- Abstract要約: CoT(Chain of Think)は、複雑な推論タスクにおいて、LLM(Large Language Models)のパフォーマンスを向上させるための推論フレームワークである。
より良い結果を得るための推論パスの数に最適な設定はなく、結果として推論コストが増大する。
本研究では,ロール固有LLMと一般LLMの世代とのバランスを保ちつつ,各経路にゲームシステムを構築することによりナッシュCoTを提案する。
アラビア推論,コモンセンス質問回答,シンボリック推論など,さまざまな推論タスクにおけるナッシュCoTの評価を行った。
- 参考スコア(独自算出の注目度): 40.50811042423615
- License:
- Abstract: Chain of thought (CoT) is a reasoning framework that can enhance the performance of Large Language Models (LLMs) on complex inference tasks. In particular, among various studies related to CoT, multi-path inference stands out as a simple yet effective improvement. However, there is no optimal setting for the number of inference paths. Therefore, we have to increase the number of inference paths to obtain better results, which in turn increases the inference cost. To address this limitation, we can utilize question-related role templates to guide LLMs into relevant roles, thereby increasing the possibility of correct inferences for each path and further reducing dependence on the number of inference paths while improving reasoning accuracy. However, placing LLMs into specific roles may reduce their reasoning diversity and performance on a few tasks where role dependence is low. To alleviate the excessive immersion of the LLM into a specific role, we propose Nash CoT by constructing a game system on each path that balances the generation from role-specific LLMs' and the general LLMs' generation, thereby ensuring both effective role adoption and diversity in LLM generation further maintaining the performance of multi-path inference while reducing the requirement of the number of inference paths. We evaluate Nash CoT across various inference tasks, including Arabic Reasoning, Commonsense Question Answering, and Symbolic Inference, achieving results that are comparable to or better than those of multi-path CoT with the equal number of inference paths.
- Abstract(参考訳): CoT(Chain of Think)は、複雑な推論タスクにおいて、LLM(Large Language Models)のパフォーマンスを向上させるための推論フレームワークである。
特に、CoTに関連する様々な研究の中で、マルチパス推論は単純だが効果的な改善として際立っている。
しかし、推論パスの数に最適な設定は存在しない。
したがって、より良い結果を得るために推論パスの数を増やし、その結果、推論コストを増大させる必要がある。
この制限に対処するために、質問関連ロールテンプレートを使用して、LSMを関連する役割に導くことで、各経路に対する正しい推論の可能性を高め、推論パス数への依存をさらに軽減し、推論精度を向上する。
しかしながら、LLMを特定の役割に配置することで、役割依存が低いいくつかのタスクにおいて、その推論の多様性とパフォーマンスが低下する可能性がある。
特定の役割にLLMを過度に没入させることを緩和するため,ロール固有のLLMと一般LLMの生成のバランスをとる各パスにゲームシステムを構築することにより,Nash CoTを提案する。
我々は、アラビア推論、コモンセンス質問回答、シンボリック推論など様々な推論タスクにおけるナッシュCoTを評価し、同一数の推論パスを持つマルチパスCoTに匹敵する結果を得る。
関連論文リスト
- Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs [37.147529569445396]
Tree-of- Thought (ToT) 法では、ツリー探索を用いて推論空間を広範囲に探索し、CoTデコーディングが見落としてしまうかもしれない推論経路をよりよく見つける。
ToTで構築された検索ツリーを利用した細調整言語モデル(LLMs)により、CoTは同様のあるいはより良いパフォーマンスを実現することができる。
これはCPO(Chain of Preference Optimization)によって実現され、LLMはCoT推論パスの各ステップをToTのステップと整列するように微調整される。
論文 参考訳(メタデータ) (2024-06-13T14:07:02Z) - Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。
このアプローチは、正しい答えが少数派である場合に失敗する。
階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文 参考訳(メタデータ) (2024-05-21T17:12:19Z) - ERA-CoT: Improving Chain-of-Thought through Entity Relationship Analysis [20.24915029448926]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて、賞賛できる成果を達成している。
これらの課題は、多段階の推論を必要とする暗黙の関係の存在から生じる。
本稿では,エンティティ間の関係を捉えることで,LLMのコンテキスト理解を支援する新しいアプローチであるERA-CoTを提案する。
論文 参考訳(メタデータ) (2024-03-11T17:18:53Z) - Identifying Factual Inconsistencies in Summaries: Grounding LLM Inference via Task Taxonomy [48.29181662640212]
事実的矛盾は、生成モデルによる忠実な要約にとって重要なハードルとなる。
我々は,要約中の不整合事実のキーエラータイプを集約し,ゼロショットと教師付きパラダイムの両方を容易にするためにそれらを組み込んだ。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - CoF-CoT: Enhancing Large Language Models with Coarse-to-Fine
Chain-of-Thought Prompting for Multi-domain NLU Tasks [46.862929778121675]
Chain-of-Thoughtプロンプトは推論タスクで人気があるが、自然言語理解(NLU)への応用は未検討である。
大規模言語モデル (LLMs) の多段階的推論により動機付け, CoF-CoT (Coarse-to-Fine Chain-of-Thought) アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-23T06:54:51Z) - Provable Benefits of Multi-task RL under Non-Markovian Decision Making
Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。
このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。
提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:50:28Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。