論文の概要: Thinking LLMs: General Instruction Following with Thought Generation
- arxiv url: http://arxiv.org/abs/2410.10630v1
- Date: Mon, 14 Oct 2024 15:38:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 20:25:02.449652
- Title: Thinking LLMs: General Instruction Following with Thought Generation
- Title(参考訳): LLMを考える: 思考生成による一般的な指導
- Authors: Tianhao Wu, Janice Lan, Weizhe Yuan, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar,
- Abstract要約: 本稿では,人体データの追加を使わずに,そのような思考能力を持つ既存LLMの訓練方法を提案する。
各命令に対して、思考候補は判断モデルを用いて応答のみを評価し、好みの最適化によって最適化される。
この手法がAlpacaEvalやArena-Hardに優れたパフォーマンスをもたらすことを示すとともに,マーケティング,健康,一般知識といった非合理的なカテゴリーの考え方から得られる利益を示す。
- 参考スコア(独自算出の注目度): 56.30755438254918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs are typically trained to answer user questions or follow instructions similarly to how human experts respond. However, in the standard alignment framework they lack the basic ability of explicit thinking before answering. Thinking is important for complex questions that require reasoning and planning -- but can be applied to any task. We propose a training method for equipping existing LLMs with such thinking abilities for general instruction following without use of additional human data. We achieve this by an iterative search and optimization procedure that explores the space of possible thought generations, allowing the model to learn how to think without direct supervision. For each instruction, the thought candidates are scored using a judge model to evaluate their responses only, and then optimized via preference optimization. We show that this procedure leads to superior performance on AlpacaEval and Arena-Hard, and shows gains from thinking on non-reasoning categories such as marketing, health and general knowledge, in addition to more traditional reasoning & problem-solving tasks.
- Abstract(参考訳): LLMは通常、ユーザーの質問に答えたり、人間の専門家がどう反応するかと同じように指示に従うように訓練されている。
しかし、標準アライメントフレームワークでは、答える前に明示的な思考の基本的な能力が欠けている。
思考は推論や計画を必要とする複雑な問題にとって重要であるが、どんなタスクにも適用できる。
本稿では,人体データの追加を使わずに,そのような思考能力を持つ既存LLMの訓練方法を提案する。
提案手法は,思考の空間を探索する反復的な探索・最適化手法によって実現され,モデルが直接の監督なしに思考の仕方を学ぶことができる。
各命令に対して、思考候補は判断モデルを用いて応答のみを評価し、好みの最適化によって最適化される。
この手法がAlpacaEvalやArena-Hardに優れたパフォーマンスをもたらすことを示すとともに,マーケティング,健康,一般知識といった非理性的なカテゴリーの考え方や,より伝統的な推論や問題解決の課題から得られる成果を示す。
関連論文リスト
- Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:58:18Z) - Prompting Large Language Models with Rationale Heuristics for Knowledge-based Visual Question Answering [6.745948705869626]
我々は,先行手法がLarge Language Models (LLM) の容量を十分に活性化していないことを論じる。
本稿では,知識に基づく VQA のための LLM と Rationale Heuristics を併用した PLRH というフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-22T09:14:35Z) - RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.08223786819532]
既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。
検索情報を統合した新しいRAG手法である textbfRAG-Star を提案する。
Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-12-17T13:05:36Z) - ReGenesis: LLMs can Grow into Reasoning Generalists via Self-Improvement [70.09541267910974]
学習後の大規模言語モデル (LLM) は推論能力を高めることができる。
既存の自己合成手法は、一般化の貧弱さからドメイン外推論(OOD)タスクに悩まされる。
本稿では,学習後データとして推論経路を自己合成する手法であるSelf-Improvement (ReGenesis) による推論ジェネリストを提案する。
論文 参考訳(メタデータ) (2024-10-03T00:09:15Z) - Ranking Generated Answers: On the Agreement of Retrieval Models with Humans on Consumer Health Questions [25.158868133182025]
本稿では,生成型大規模言語モデル(LLM)の出力を評価する手法を提案する。
我々は、注釈付き文書コレクションで訓練されたランキングモデルを、明示的な妥当性の代用として用いている。
ユーザ研究において,本手法は人間専門家の嗜好と相関する。
論文 参考訳(メタデータ) (2024-08-19T09:27:45Z) - Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文 参考訳(メタデータ) (2024-07-25T17:35:59Z) - Leveraging LLM Reasoning Enhances Personalized Recommender Systems [25.765908301183188]
本稿では,レコメンデーションシステム (RecSys) におけるLarge Language Models (LLMs) の推論の適用が,大きな課題であることを示す。
本研究では、RecSysの推論をよりよく理解し、タスク品質がどのように改善されるかを示すために、いくつかの側面について検討する。
論文 参考訳(メタデータ) (2024-07-22T20:18:50Z) - LaRS: Latent Reasoning Skills for Chain-of-Thought Reasoning [61.7853049843921]
Chain-of-Thoughting(CoT)プロンプトは、大規模言語モデル(LLM)のための一般的なコンテキスト内学習手法である。
本稿では、教師なし学習を用いて有理数の潜在空間表現を生成するLaRS(Lalatnt Reasoning Skills)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-07T20:36:10Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。