論文の概要: Thinking LLMs: General Instruction Following with Thought Generation
- arxiv url: http://arxiv.org/abs/2410.10630v1
- Date: Mon, 14 Oct 2024 15:38:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 20:25:02.449652
- Title: Thinking LLMs: General Instruction Following with Thought Generation
- Title(参考訳): LLMを考える: 思考生成による一般的な指導
- Authors: Tianhao Wu, Janice Lan, Weizhe Yuan, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar,
- Abstract要約: 本稿では,人体データの追加を使わずに,そのような思考能力を持つ既存LLMの訓練方法を提案する。
各命令に対して、思考候補は判断モデルを用いて応答のみを評価し、好みの最適化によって最適化される。
この手法がAlpacaEvalやArena-Hardに優れたパフォーマンスをもたらすことを示すとともに,マーケティング,健康,一般知識といった非合理的なカテゴリーの考え方から得られる利益を示す。
- 参考スコア(独自算出の注目度): 56.30755438254918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs are typically trained to answer user questions or follow instructions similarly to how human experts respond. However, in the standard alignment framework they lack the basic ability of explicit thinking before answering. Thinking is important for complex questions that require reasoning and planning -- but can be applied to any task. We propose a training method for equipping existing LLMs with such thinking abilities for general instruction following without use of additional human data. We achieve this by an iterative search and optimization procedure that explores the space of possible thought generations, allowing the model to learn how to think without direct supervision. For each instruction, the thought candidates are scored using a judge model to evaluate their responses only, and then optimized via preference optimization. We show that this procedure leads to superior performance on AlpacaEval and Arena-Hard, and shows gains from thinking on non-reasoning categories such as marketing, health and general knowledge, in addition to more traditional reasoning & problem-solving tasks.
- Abstract(参考訳): LLMは通常、ユーザーの質問に答えたり、人間の専門家がどう反応するかと同じように指示に従うように訓練されている。
しかし、標準アライメントフレームワークでは、答える前に明示的な思考の基本的な能力が欠けている。
思考は推論や計画を必要とする複雑な問題にとって重要であるが、どんなタスクにも適用できる。
本稿では,人体データの追加を使わずに,そのような思考能力を持つ既存LLMの訓練方法を提案する。
提案手法は,思考の空間を探索する反復的な探索・最適化手法によって実現され,モデルが直接の監督なしに思考の仕方を学ぶことができる。
各命令に対して、思考候補は判断モデルを用いて応答のみを評価し、好みの最適化によって最適化される。
この手法がAlpacaEvalやArena-Hardに優れたパフォーマンスをもたらすことを示すとともに,マーケティング,健康,一般知識といった非理性的なカテゴリーの考え方や,より伝統的な推論や問題解決の課題から得られる成果を示す。
関連論文リスト
- ReGenesis: LLMs can Grow into Reasoning Generalists via Self-Improvement [70.09541267910974]
学習後の大規模言語モデル (LLM) は推論能力を高めることができる。
既存の自己合成手法は、一般化の貧弱さからドメイン外推論(OOD)タスクに悩まされる。
本稿では,学習後データとして推論経路を自己合成する手法であるSelf-Improvement (ReGenesis) による推論ジェネリストを提案する。
論文 参考訳(メタデータ) (2024-10-03T00:09:15Z) - Ranking Generated Answers: On the Agreement of Retrieval Models with Humans on Consumer Health Questions [25.158868133182025]
本稿では,生成型大規模言語モデル(LLM)の出力を評価する手法を提案する。
我々の採点法は, 専門家の嗜好と相関する。
生成した回答の質がモデルのサイズによって向上する、よく知られた事実を検証して検証する。
論文 参考訳(メタデータ) (2024-08-19T09:27:45Z) - Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文 参考訳(メタデータ) (2024-07-25T17:35:59Z) - Leveraging LLM Reasoning Enhances Personalized Recommender Systems [25.765908301183188]
本稿では,レコメンデーションシステム (RecSys) におけるLarge Language Models (LLMs) の推論の適用が,大きな課題であることを示す。
本研究では、RecSysの推論をよりよく理解し、タスク品質がどのように改善されるかを示すために、いくつかの側面について検討する。
論文 参考訳(メタデータ) (2024-07-22T20:18:50Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - LaRS: Latent Reasoning Skills for Chain-of-Thought Reasoning [61.7853049843921]
Chain-of-Thoughting(CoT)プロンプトは、大規模言語モデル(LLM)のための一般的なコンテキスト内学習手法である。
本稿では、教師なし学習を用いて有理数の潜在空間表現を生成するLaRS(Lalatnt Reasoning Skills)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-07T20:36:10Z) - Self-Knowledge Guided Retrieval Augmentation for Large Language Models [59.771098292611846]
大規模言語モデル(LLM)はタスク固有の微調整なしで優れた性能を示す。
検索に基づく手法は、非パラメトリックな世界知識を提供し、質問応答のようなタスクのパフォーマンスを向上させることができる。
SKR(Self-Knowledge guided Retrieval augmentation)は、LLMがこれまで遭遇した質問を参照できるようにする、シンプルで効果的な方法である。
論文 参考訳(メタデータ) (2023-10-08T04:22:33Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。