論文の概要: LLM should think and action as a human
- arxiv url: http://arxiv.org/abs/2502.13475v1
- Date: Wed, 19 Feb 2025 06:58:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:01:35.233505
- Title: LLM should think and action as a human
- Title(参考訳): LLMは人間として考え行動すべきである
- Authors: Haun Leung, ZiNan Wang,
- Abstract要約: マルチターン会話では、ユーザプロンプト毎に、チャット履歴、思考コンテキスト、アクションコール、メモリ、知識といった要素に基づいて、大きな言語モデルを考える。
実験結果から,大規模言語モデルの推論能力と計画能力が向上し,マルチターン会話における課題が解決された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: It is popular lately to train large language models to be used as chat assistants, but in the conversation between the user and the chat assistant, there are prompts, require multi-turns between the chat assistant and the user. However, there are a number of issues with the multi-turns conversation: The response of the chat assistant is prone to errors and cannot help users achieve their goals; It is difficult for chat assistant to generate responses with different processes based on actual needs for the same command or request; Chat assistant require the use of tools, but the current approach is not elegant and efficient, and the number of tool calls that can be supported is limited. The main reason for these issues is that large language models do not have the thinking ability as a human, lack the reasoning ability and planning ability, and lack the ability to execute plans. To solve these issues, we propose a thinking method based on a built-in chain of thought: In the multi-turns conversation, for each user prompt, the large language model thinks based on elements such as chat history, thinking context, action calls, memory and knowledge, makes detailed reasoning and planning, and actions according to the plan. We also explored how the large language model enhances thinking ability through this thinking method: Collect training datasets according to the thinking method and fine tune the large language model through supervised learning; Train a consistency reward model and use it as a reward function to fine tune the large language model using reinforcement learning, and the reinforced large language model outputs according to this way of thinking. Our experimental results show that the reasoning ability and planning ability of the large language model are enhanced, and the issues in the multi-turns conversation are solved.
- Abstract(参考訳): 最近は、チャットアシスタントとして使用するための大規模な言語モデルをトレーニングすることが人気になっているが、ユーザとチャットアシスタントの会話では、チャットアシスタントとユーザとのマルチターンを必要とするプロンプトがある。
チャットアシスタントは、同じコマンドやリクエストの実際の要求に基づいて、異なるプロセスでレスポンスを生成することは困難である。チャットアシスタントは、ツールの使用を必要とするが、現在のアプローチはエレガントで効率的なものではなく、サポート可能なツールコールの数も限られている。
これらの問題の主な理由は、大きな言語モデルには人間としての思考能力がなく、推論能力や計画能力がなく、計画を実行する能力がないことである。
マルチターン会話では、各ユーザプロンプトに対して、チャット履歴、思考コンテキスト、行動呼び出し、記憶と知識、詳細な推論と計画、計画に基づく行動といった要素に基づいて、大きな言語モデルを思考する。
思考方法に従って学習データセットを収集し、教師付き学習を通して大規模言語モデルを微調整する; 整合性報酬モデルを訓練し、それを報酬関数として、強化学習を用いて大規模言語モデルを微調整する; そして、この考え方に従って強化された大規模言語モデルを出力する。
実験結果から,大規模言語モデルの推論能力と計画能力が向上し,マルチターン会話における課題が解決された。
関連論文リスト
- Think Before You Speak: Cultivating Communication Skills of Large Language Models via Inner Monologue [73.69510478736483]
大規模言語モデル(LLM)は、流動的で一貫性があり多様な応答を生成する。
しかし、それらは重要な能力、コミュニケーションスキルを欠いている。
本稿は,内的モノローグによるLLMのコミュニケーション能力向上を目的としている。
実験の結果,提案したCSIM戦略はバックボーンモデルを改善し,ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-11-13T16:19:42Z) - Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages [40.37822682459469]
我々は、事前訓練された言語モデルに指示追従と人間の値アライメントを持たせるために、$textitchat vector$という概念を導入する。
連続的な事前訓練されたモデルの重み付けにチャットベクトルを追加するだけで、言語を必要とせずに、チャット機能をモデルに組み込むことができる。
論文 参考訳(メタデータ) (2023-10-07T13:34:21Z) - ChatDev: Communicative Agents for Software Development [84.90400377131962]
ChatDevはチャットを利用したソフトウェア開発フレームワークで、特別なエージェントがコミュニケーション方法についてガイドされる。
これらのエージェントは、統一された言語ベースのコミュニケーションを通じて、設計、コーディング、テストフェーズに積極的に貢献する。
論文 参考訳(メタデータ) (2023-07-16T02:11:34Z) - ChatCoT: Tool-Augmented Chain-of-Thought Reasoning on Chat-based Large
Language Models [125.7209927536255]
チャットベースのLLMのためのツール拡張チェーン推論フレームワークChatCoTを提案する。
ChatCoTでは、チャットを通じてより自然な方法でツールを活用するために、マルチターン会話として思考の連鎖(CoT)推論をモデル化します。
提案手法は,チャットベースのLLMのマルチターン会話能力を効果的に活用し,思考連鎖とツール操作を統一的に統合する。
論文 参考訳(メタデータ) (2023-05-23T17:54:33Z) - ChatLLM Network: More brains, More intelligence [42.65167827451101]
本稿では,複数の対話型言語モデルと対話し,フィードバックを提供し,一緒に考えることができるChatLLMネットワークを提案する。
我々は,ネットワークが問題解決の大幅な改善を達成し,各メンバーの観測可能性の向上につながったことを示す。
論文 参考訳(メタデータ) (2023-04-24T08:29:14Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z) - Investigating Effect of Dialogue History in Multilingual Task Oriented
Dialogue Systems [2.695466667982714]
2021年12月までに、世界で最も人気のあるスマートスピーカーの1つであるAlexaは、9つの異なる言語をサポートすることができる。
他の言語での仮想アシスタントのトレーニングは、特に低リソース言語では、しばしば困難である。
我々は多言語タスク指向対話システムのための効率的かつ効果的な学習ソリューションを考案する。
論文 参考訳(メタデータ) (2021-12-23T02:27:10Z) - Few-Shot Bot: Prompt-Based Learning for Dialogue Systems [58.27337673451943]
ごく少数の例を使って会話を学ぶことは、会話型AIにおける大きな課題である。
現在の最良の会話モデルは、良いチャットシャッター(例:BlenderBot)またはゴール指向システム(例:MinTL)である。
グラデーションベースの微調整を必要とせず、学習の唯一の源としていくつかの例を用いるプロンプトベースの数ショット学習を提案する。
論文 参考訳(メタデータ) (2021-10-15T14:36:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。