論文の概要: Method-Based Reasoning for Large Language Models: Extraction, Reuse, and Continuous Improvement
- arxiv url: http://arxiv.org/abs/2508.04289v2
- Date: Thu, 07 Aug 2025 04:14:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-24 10:27:26.429685
- Title: Method-Based Reasoning for Large Language Models: Extraction, Reuse, and Continuous Improvement
- Title(参考訳): 大規模言語モデルに対するメソッドベース推論:抽出,再利用,継続的改善
- Authors: Hong Su,
- Abstract要約: 本稿では,学習内容,生成応答,ユーザインタラクションから抽出した,大規模言語モデル(LLM)を明示的かつ再利用可能な手順で拡張する手法に基づくモデルを提案する。
我々のモデルは,次の予測を超える連続的な学習,手法の再利用,論理的一貫性を実現する。
- 参考スコア(独自算出の注目度): 0.3807314298073301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown impressive capabilities across a wide range of language tasks. However, their reasoning process is primarily guided by statistical patterns in training data, which limits their ability to handle novel problems and perform consistent logical reasoning. In this paper, we propose a method-based model that enhances LLMs with explicit, reusable procedures extracted from training content, generated responses, and user interactions. Each method is represented as a pair consisting of a problem and its corresponding solution, stored externally and ranked based on feedback. When a new query is received, the system retrieves and applies the most relevant methods to guide the LLM's response. Our model enables continual learning, method reuse, and logical consistency beyond next-token prediction. Experimental results demonstrate that the system improves factual verification and generalization in complex prompts, and that newly learned methods can outperform earlier ones through user-driven refinement.
- Abstract(参考訳): 大きな言語モデル(LLM)は、幅広い言語タスクで印象的な機能を示している。
しかし、それらの推論プロセスは主に、新しい問題に対処し、一貫した論理的推論を実行する能力を制限する訓練データの統計的パターンによって導かれる。
本稿では,学習内容,生成応答,ユーザインタラクションから抽出した,明示的で再利用可能な手順でLCMを強化する手法に基づくモデルを提案する。
各方法は、問題とその対応する解からなるペアとして表現され、外部に格納され、フィードバックに基づいてランク付けされる。
新しいクエリが受信されると、システムはLSMの応答をガイドするために最も関連性の高いメソッドを検索し、適用する。
我々のモデルは,次の予測を超える連続的な学習,手法の再利用,論理的一貫性を実現する。
実験結果から,複雑なプロンプトの事実検証と一般化が向上し,ユーザ主導の洗練により,新たな学習手法が先行手法より優れていることが示された。
関連論文リスト
- RALLRec: Improving Retrieval Augmented Large Language Model Recommendation with Representation Learning [24.28601381739682]
大規模言語モデル (LLM) は、ユーザの振る舞いを理解するためのレコメンデーションシステムに統合されている。
既存のRAGメソッドは主にテキストのセマンティクスに依存しており、しばしば最も関連性の高い項目を組み込むことができない。
検索強化大言語モデル推薦(RALLRec)のための表現学習を提案する。
論文 参考訳(メタデータ) (2025-02-10T02:15:12Z) - Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - PRefLexOR: Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning and Agentic Thinking [0.0]
PRefLexORは、好みの最適化と強化学習の概念を組み合わせることで、モデルを自己学習可能にする。
本研究は, 生体材料科学の応用に焦点をあて, 様々なケーススタディでその手法を実証する。
論文 参考訳(メタデータ) (2024-10-16T08:46:26Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文 参考訳(メタデータ) (2024-07-25T17:35:59Z) - Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning [53.241569810013836]
本稿では,大規模言語モデル(LLM)を用いて,効率的な特徴生成ルールを同定するフレームワークを提案する。
我々は、自然言語で容易に表現できるため、この推論情報を伝達するために決定木を使用します。
OCTreeは様々なベンチマークで様々な予測モデルの性能を継続的に向上させる。
論文 参考訳(メタデータ) (2024-06-12T08:31:34Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。
RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。