Fugu-MT 論文翻訳(概要): Thinking LLMs: General Instruction Following with Thought Generation

論文の概要: Thinking LLMs: General Instruction Following with Thought Generation

arxiv url: http://arxiv.org/abs/2410.10630v1
Date: Mon, 14 Oct 2024 15:38:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-29 20:25:02.449652
Title: Thinking LLMs: General Instruction Following with Thought Generation
Title（参考訳）: LLMを考える: 思考生成による一般的な指導
Authors: Tianhao Wu, Janice Lan, Weizhe Yuan, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar,
Abstract要約: 本稿では,人体データの追加を使わずに,そのような思考能力を持つ既存LLMの訓練方法を提案する。各命令に対して、思考候補は判断モデルを用いて応答のみを評価し、好みの最適化によって最適化される。この手法がAlpacaEvalやArena-Hardに優れたパフォーマンスをもたらすことを示すとともに,マーケティング,健康,一般知識といった非合理的なカテゴリーの考え方から得られる利益を示す。
参考スコア（独自算出の注目度）: 56.30755438254918
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LLMs are typically trained to answer user questions or follow instructions similarly to how human experts respond. However, in the standard alignment framework they lack the basic ability of explicit thinking before answering. Thinking is important for complex questions that require reasoning and planning -- but can be applied to any task. We propose a training method for equipping existing LLMs with such thinking abilities for general instruction following without use of additional human data. We achieve this by an iterative search and optimization procedure that explores the space of possible thought generations, allowing the model to learn how to think without direct supervision. For each instruction, the thought candidates are scored using a judge model to evaluate their responses only, and then optimized via preference optimization. We show that this procedure leads to superior performance on AlpacaEval and Arena-Hard, and shows gains from thinking on non-reasoning categories such as marketing, health and general knowledge, in addition to more traditional reasoning & problem-solving tasks.
Abstract（参考訳）: LLMは通常、ユーザーの質問に答えたり、人間の専門家がどう反応するかと同じように指示に従うように訓練されている。しかし、標準アライメントフレームワークでは、答える前に明示的な思考の基本的な能力が欠けている。思考は推論や計画を必要とする複雑な問題にとって重要であるが、どんなタスクにも適用できる。本稿では,人体データの追加を使わずに,そのような思考能力を持つ既存LLMの訓練方法を提案する。提案手法は,思考の空間を探索する反復的な探索・最適化手法によって実現され,モデルが直接の監督なしに思考の仕方を学ぶことができる。各命令に対して、思考候補は判断モデルを用いて応答のみを評価し、好みの最適化によって最適化される。この手法がAlpacaEvalやArena-Hardに優れたパフォーマンスをもたらすことを示すとともに,マーケティング,健康,一般知識といった非理性的なカテゴリーの考え方や,より伝統的な推論や問題解決の課題から得られる成果を示す。

関連論文リスト

Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks [52.098988739649705]
本研究では, LLMのバイアスと限界について, 応答生成器, 判定器, 討論器の3つの役割について検討した。我々は、様々な先行的曖昧なシナリオを含む例をキュレートすることで、合意なしのベンチマークを開発する。以上の結果から, LLMは, オープンエンドの回答を生成する際に, 曖昧な評価を行うことができる一方で, 審査員や討論者として採用する場合は, 合意なしのトピックにスタンスを取る傾向が示唆された。
論文参考訳（メタデータ） (2025-05-28T01:31:54Z)
Prejudge-Before-Think: Enhancing Large Language Models at Test-Time by Process Prejudge Reasoning [13.865037985388575]
我々は LLM 推論に新しい Emphprocess prejudge 戦略を導入する。我々は、推論ステップを表す理性において、事前判断ノードを定義する。動的木探索戦略を用いた自動推論フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-18T06:42:30Z)
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文参考訳（メタデータ） (2025-01-30T18:58:18Z)
Prompting Large Language Models with Rationale Heuristics for Knowledge-based Visual Question Answering [6.745948705869626]
我々は,先行手法がLarge Language Models (LLM) の容量を十分に活性化していないことを論じる。本稿では,知識に基づく VQA のための LLM と Rationale Heuristics を併用した PLRH というフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-22T09:14:35Z)
RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.08223786819532]
既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。検索情報を統合した新しいRAG手法である textbfRAG-Star を提案する。 Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2024-12-17T13:05:36Z)
ReGenesis: LLMs can Grow into Reasoning Generalists via Self-Improvement [70.09541267910974]
学習後の大規模言語モデル (LLM) は推論能力を高めることができる。既存の自己合成手法は、一般化の貧弱さからドメイン外推論(OOD)タスクに悩まされる。本稿では,学習後データとして推論経路を自己合成する手法であるSelf-Improvement (ReGenesis) による推論ジェネリストを提案する。
論文参考訳（メタデータ） (2024-10-03T00:09:15Z)
Ranking Generated Answers: On the Agreement of Retrieval Models with Humans on Consumer Health Questions [25.158868133182025]
本稿では,生成型大規模言語モデル(LLM)の出力を評価する手法を提案する。我々の採点法は, 専門家の嗜好と相関する。生成した回答の質がモデルのサイズによって向上する、よく知られた事実を検証して検証する。
論文参考訳（メタデータ） (2024-08-19T09:27:45Z)
Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文参考訳（メタデータ） (2024-07-25T17:35:59Z)
Leveraging LLM Reasoning Enhances Personalized Recommender Systems [25.765908301183188]
本稿では,レコメンデーションシステム (RecSys) におけるLarge Language Models (LLMs) の推論の適用が,大きな課題であることを示す。本研究では、RecSysの推論をよりよく理解し、タスク品質がどのように改善されるかを示すために、いくつかの側面について検討する。
論文参考訳（メタデータ） (2024-07-22T20:18:50Z)
Learning to Generate Explainable Stock Predictions using Self-Reflective Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文参考訳（メタデータ） (2024-02-06T03:18:58Z)
LaRS: Latent Reasoning Skills for Chain-of-Thought Reasoning [61.7853049843921]
Chain-of-Thoughting(CoT)プロンプトは、大規模言語モデル(LLM)のための一般的なコンテキスト内学習手法である。本稿では、教師なし学習を用いて有理数の潜在空間表現を生成するLaRS(Lalatnt Reasoning Skills)という新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-12-07T20:36:10Z)
Self-Knowledge Guided Retrieval Augmentation for Large Language Models [59.771098292611846]
大規模言語モデル(LLM)はタスク固有の微調整なしで優れた性能を示す。検索に基づく手法は、非パラメトリックな世界知識を提供し、質問応答のようなタスクのパフォーマンスを向上させることができる。 SKR(Self-Knowledge guided Retrieval augmentation)は、LLMがこれまで遭遇した質問を参照できるようにする、シンプルで効果的な方法である。
論文参考訳（メタデータ） (2023-10-08T04:22:33Z)
Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文参考訳（メタデータ） (2023-05-30T15:25:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。