論文の概要: Enhance Reasoning for Large Language Models in the Game Werewolf
- arxiv url: http://arxiv.org/abs/2402.02330v1
- Date: Sun, 4 Feb 2024 03:47:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 20:39:05.128247
- Title: Enhance Reasoning for Large Language Models in the Game Werewolf
- Title(参考訳): ゲームウィールウルフにおける大規模言語モデルのエンハンス推論
- Authors: Shuang Wu, Liwen Zhu, Tao Yang, Shiwei Xu, Qiang Fu, Yang Wei, Haobo
Fu
- Abstract要約: 本稿では,Large Language Models(LLM)を外部のThinkerモジュールと統合する革新的なフレームワークを提案する。
本フレームワークは,マルチシステム推論を必要とする9人プレイヤのWerewolfゲームを用いて提案する。
実験では, 帰納的推論, 音声生成, オンラインゲーム評価におけるフレームワークの有効性を示す。
- 参考スコア(独自算出の注目度): 16.519695701346155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an innovative framework that integrates Large Language
Models (LLMs) with an external Thinker module to enhance the reasoning
capabilities of LLM-based agents. Unlike augmenting LLMs with prompt
engineering, Thinker directly harnesses knowledge from databases and employs
various optimization techniques. The framework forms a reasoning hierarchy
where LLMs handle intuitive System-1 tasks such as natural language processing,
while the Thinker focuses on cognitive System-2 tasks that require complex
logical analysis and domain-specific knowledge. Our framework is presented
using a 9-player Werewolf game that demands dual-system reasoning. We introduce
a communication protocol between LLMs and the Thinker, and train the Thinker
using data from 18800 human sessions and reinforcement learning. Experiments
demonstrate the framework's effectiveness in deductive reasoning, speech
generation, and online game evaluation. Additionally, we fine-tune a 6B LLM to
surpass GPT4 when integrated with the Thinker. This paper also contributes the
largest dataset for social deduction games to date.
- Abstract(参考訳): 本稿では,LLMエージェントの推論能力を高めるために,Large Language Models(LLM)と外部Thinkerモジュールを統合する革新的なフレームワークを提案する。
迅速なエンジニアリングによるLLMの拡張とは異なり、Thinkerはデータベースからの知識を直接活用し、様々な最適化技術を採用している。
このフレームワークは、LLMが自然言語処理のような直感的なSystem-1タスクを処理する推論階層を形成し、Thinkerは複雑な論理解析とドメイン固有の知識を必要とするSystem-2タスクに焦点を当てている。
本フレームワークは,マルチシステム推論を必要とする9プレイヤーのWerewolfゲームを用いて提案する。
LLMとThinker間の通信プロトコルを導入し、18800人のセッションと強化学習のデータを用いてThinkerを訓練する。
実験では, 帰納的推論, 音声生成, オンラインゲーム評価におけるフレームワークの有効性を示す。
さらに、6B LLMを微調整して、Thinkerと統合した場合、GPT4を超えるようにします。
本稿では,これまでで最大のソーシャル・デダクション・ゲームデータセットを提供する。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Do Large Language Models Mirror Cognitive Language Processing? [47.72734808139112]
大規模言語モデル(LLM)は、テキスト理解と論理的推論において顕著な能力を示した。
本研究では,LLM表現と人間の認知信号をブリッジして,LLMが認知言語処理をいかに効果的にシミュレートするかを評価する手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T03:38:20Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Learning To Teach Large Language Models Logical Reasoning [33.88499005859982]
大規模言語モデル(LLM)は、学術と産業の両方から大きな注目を集めている。
しかし、現在のLLMは、その固有の問題のために、実用的な推論タスクにおいて信頼性の低いコンテンツを出力している。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical
Reasoning Capabilities of Language Models [58.76688462256284]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
一つのタスクトレーニング,複数タスクトレーニング,および思考知識の蒸留微調整手法の連鎖について検討し,異なる論理的推論カテゴリにおけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Spoken Language Intelligence of Large Language Models for Language
Learning [3.5924382852350902]
教育分野における大規模言語モデル(LLM)の有効性を評価することに注力する。
上記のシナリオにおけるLLMの有効性を評価するために,新しい複数選択質問データセットを提案する。
また,ゼロショット法や少数ショット法など,様々なプロンプト技術の影響についても検討する。
異なる大きさのモデルは、音韻学、音韻学、第二言語習得の概念をよく理解しているが、実世界の問題に対する推論には限界がある。
論文 参考訳(メタデータ) (2023-08-28T12:47:41Z) - ChatABL: Abductive Learning via Natural Language Interaction with
ChatGPT [72.83383437501577]
大規模言語モデル(LLM)は、最近数学的な能力において大きな可能性を証明している。
LLMは現在、認識、言語理解、推論能力のブリッジングに困難を抱えている。
本稿では, LLMを帰納学習フレームワークに統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-21T16:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。