論文の概要: Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2406.09136v1
- Date: Thu, 13 Jun 2024 14:07:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 17:34:25.048832
- Title: Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs
- Title(参考訳): 選好最適化の連鎖:LLMにおけるチェーン・オブ・ソート推論の改善
- Authors: Xuan Zhang, Chao Du, Tianyu Pang, Qian Liu, Wei Gao, Min Lin,
- Abstract要約: Tree-of- Thought (ToT) 法では、ツリー探索を用いて推論空間を広範囲に探索し、CoTデコーディングが見落としてしまうかもしれない推論経路をよりよく見つける。
ToTで構築された検索ツリーを利用した細調整言語モデル(LLMs)により、CoTは同様のあるいはより良いパフォーマンスを実現することができる。
これはCPO(Chain of Preference Optimization)によって実現され、LLMはCoT推論パスの各ステップをToTのステップと整列するように微調整される。
- 参考スコア(独自算出の注目度): 37.147529569445396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent development of chain-of-thought (CoT) decoding has enabled large language models (LLMs) to generate explicit logical reasoning paths for complex problem-solving. However, research indicates that these paths are not always deliberate and optimal. The tree-of-thought (ToT) method employs tree-searching to extensively explore the reasoning space and find better reasoning paths that CoT decoding might overlook. This deliberation, however, comes at the cost of significantly increased inference complexity. In this work, we demonstrate that fine-tuning LLMs leveraging the search tree constructed by ToT allows CoT to achieve similar or better performance, thereby avoiding the substantial inference burden. This is achieved through Chain of Preference Optimization (CPO), where LLMs are fine-tuned to align each step of the CoT reasoning paths with those of ToT using the inherent preference information in the tree-search process. Extensive experimental results show that CPO significantly improves LLM performance in solving a variety of complex problems, including question answering, fact verification, and arithmetic reasoning, demonstrating its effectiveness. Our code is available at https://github.com/sail-sg/CPO.
- Abstract(参考訳): 近年のチェーン・オブ・ソート(CoT)デコーディングにより、大規模言語モデル(LLM)は複雑な問題解決のための論理的推論経路を明示的に生成できるようになった。
しかし、研究はこれらの経路が必ずしも故意で最適であるとは限らないことを示唆している。
ツリー・オブ・シント (ToT) 法では、ツリー探索を用いて推論空間を広範囲に探索し、CoTデコーディングが見落としてしまうかもしれない推論経路を見出す。
しかし、この議論は推論の複雑さを大幅に増大させるコストが伴う。
本研究では,ToT が構築した探索木を利用した微調整 LLM により,CoT が類似あるいは良好な性能を達成できることを示す。
これは、CPO(Chain of Preference Optimization)によって実現され、木探索プロセスにおいて固有の嗜好情報を用いて、COT推論パスの各ステップをToTのステップと整列するように、LLMを微調整する。
CPOは,質問応答,事実検証,算術的推論など,様々な複雑な問題の解法において,LLMの性能を著しく向上することを示す。
私たちのコードはhttps://github.com/sail-sg/CPO.comで公開されています。
関連論文リスト
- DynaThink: Fast or Slow? A Dynamic Decision-Making Framework for Large Language Models [42.95876831743256]
大規模言語モデル(LLM)は、Chains-of-Thoughtプロンプトを通じて、さまざまな推論タスクにまたがる創発的な機能を示している。
本稿では,LLMが高速かつ低速な推論手法を自律的に選択できることの課題に対処する。
LLMが高速に高信頼の解を識別するタスクに指定された「Fast」と、LLMが複雑だと認識するタスクに割り当てられた「Slow」という2つの異なる経路に分類する動的意思決定フレームワークを導入する。
論文 参考訳(メタデータ) (2024-07-01T06:45:13Z) - Nash CoT: Multi-Path Inference with Preference Equilibrium [40.50811042423615]
大型言語モデル(LLM)の推論能力を高めるための強力な技術として、チェーン・オブ・シント(CoT)プロンプトが登場した。
我々は、シンボリック言語デコーディングを優先コンセンサスゲームとして概念化し、各ローカルパス内にバイプレイヤゲームシステムを構築し、ナッシュチェーン・オブ・ソート(ナッシュCoT)を紹介した。
我々は,アラビア推論,コモンセンス質問応答,推論など,さまざまな推論タスクにおいて,推論パスを減らしながら,自己整合性と比較して同等あるいは改善された性能を実現する。
論文 参考訳(メタデータ) (2024-06-18T07:46:13Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。
このアプローチは、正しい答えが少数派である場合に失敗する。
階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文 参考訳(メタデータ) (2024-05-21T17:12:19Z) - Chain of Thoughtlessness? An Analysis of CoT in Planning [17.329365493094542]
推論問題におけるLLM(Large Language Model)のパフォーマンスは通常、分布から一般化しない。
本稿では,古典的計画領域であるBlocksworldの問題に対する思考連鎖のケーススタディを示す。
それらのプロンプトが問題クラスに特有である場合、一連の思考プロンプトから有意義なパフォーマンス改善が得られます。
論文 参考訳(メタデータ) (2024-05-08T02:48:28Z) - Can Separators Improve Chain-of-Thought Prompting? [10.398343318429367]
CoTプロンプトは大規模言語モデル(LLM)の推論能力を改善するためのシンプルで効果的な方法である
人間の認知にインスパイアされたCOT-SEP(COT-SEP)は,CoTプロンプトにおける各指数の最後にセパレータを戦略的に採用する手法である。
論文 参考訳(メタデータ) (2024-02-16T12:46:16Z) - Chain-of-Thought Reasoning Without Prompting [40.92854235219315]
CoT推論パスは、テキストデコーディングプロセスを変更するだけで、事前訓練された言語モデルから引き出すことができる。
復号経路におけるCoTの存在は、モデルの復号解に対する高い信頼と相関する。
論文 参考訳(メタデータ) (2024-02-15T18:55:41Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。