Fugu-MT 論文翻訳(概要): Enhance Reasoning for Large Language Models in the Game Werewolf

論文の概要: Enhance Reasoning for Large Language Models in the Game Werewolf

arxiv url: http://arxiv.org/abs/2402.02330v1
Date: Sun, 4 Feb 2024 03:47:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 20:39:05.128247
Title: Enhance Reasoning for Large Language Models in the Game Werewolf
Title（参考訳）: ゲームウィールウルフにおける大規模言語モデルのエンハンス推論
Authors: Shuang Wu, Liwen Zhu, Tao Yang, Shiwei Xu, Qiang Fu, Yang Wei, Haobo Fu
Abstract要約: 本稿では,Large Language Models(LLM)を外部のThinkerモジュールと統合する革新的なフレームワークを提案する。本フレームワークは,マルチシステム推論を必要とする9人プレイヤのWerewolfゲームを用いて提案する。実験では, 帰納的推論, 音声生成, オンラインゲーム評価におけるフレームワークの有効性を示す。
参考スコア（独自算出の注目度）: 16.519695701346155
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents an innovative framework that integrates Large Language Models (LLMs) with an external Thinker module to enhance the reasoning capabilities of LLM-based agents. Unlike augmenting LLMs with prompt engineering, Thinker directly harnesses knowledge from databases and employs various optimization techniques. The framework forms a reasoning hierarchy where LLMs handle intuitive System-1 tasks such as natural language processing, while the Thinker focuses on cognitive System-2 tasks that require complex logical analysis and domain-specific knowledge. Our framework is presented using a 9-player Werewolf game that demands dual-system reasoning. We introduce a communication protocol between LLMs and the Thinker, and train the Thinker using data from 18800 human sessions and reinforcement learning. Experiments demonstrate the framework's effectiveness in deductive reasoning, speech generation, and online game evaluation. Additionally, we fine-tune a 6B LLM to surpass GPT4 when integrated with the Thinker. This paper also contributes the largest dataset for social deduction games to date.
Abstract（参考訳）: 本稿では,LLMエージェントの推論能力を高めるために,Large Language Models(LLM)と外部Thinkerモジュールを統合する革新的なフレームワークを提案する。迅速なエンジニアリングによるLLMの拡張とは異なり、Thinkerはデータベースからの知識を直接活用し、様々な最適化技術を採用している。このフレームワークは、LLMが自然言語処理のような直感的なSystem-1タスクを処理する推論階層を形成し、Thinkerは複雑な論理解析とドメイン固有の知識を必要とするSystem-2タスクに焦点を当てている。本フレームワークは,マルチシステム推論を必要とする9プレイヤーのWerewolfゲームを用いて提案する。 LLMとThinker間の通信プロトコルを導入し、18800人のセッションと強化学習のデータを用いてThinkerを訓練する。実験では, 帰納的推論, 音声生成, オンラインゲーム評価におけるフレームワークの有効性を示す。さらに、6B LLMを微調整して、Thinkerと統合した場合、GPT4を超えるようにします。本稿では,これまでで最大のソーシャル・デダクション・ゲームデータセットを提供する。

関連論文リスト

Decoupled Visual Interpretation and Linguistic Reasoning for Math Problem Solving [57.22004912994658]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文参考訳（メタデータ） (2025-05-23T08:18:00Z)
Empowering LLMs in Decision Games through Algorithmic Data Synthesis [29.128280701799074]
意思決定ゲームは、大規模言語モデルの推論能力を評価し、強化するための理想的なサンドボックスとして機能する。データ合成戦略を設計し、2つの古典ゲーム、DoudizhuとGoから広範囲のオフラインデータセットをキュレートする。我々は、このデータをLLMトレーニングに効果的に組み込むための一連の技術を開発し、その結果、Mastermind-Dou と Mastermind-Go という2つの新しいエージェントを生み出した。
論文参考訳（メタデータ） (2025-03-18T07:30:29Z)
Towards Anthropomorphic Conversational AI Part I: A Practical Framework [49.62013440962072]
会話に関わる人間の知性の重要な側面を再現するために設計されたマルチモジュールフレームワークを導入する。アプローチの第2段階では、これらの会話データは、フィルタリングとラベル付けの後に、強化学習のためのトレーニングおよびテストデータとして機能する。
論文参考訳（メタデータ） (2025-02-28T03:18:39Z)
General Reasoning Requires Learning to Reason from the Get-go [19.90997698310839]
大規模言語モデル(LLM)は、実世界の素晴らしいユーティリティを実証している。しかし、適応的かつ堅牢に推論できる能力は、脆弱なままだ。我々は3つの重要な方向から知識と推論を解き放つことを提案する。
論文参考訳（メタデータ） (2025-02-26T18:51:12Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
Evaluating Creativity and Deception in Large Language Models: A Simulation Framework for Multi-Agent Balderdash [6.65572931991284]
大きな言語モデル(LLM)は複雑なタスクや対話的な環境において印象的な機能を示している。本稿では, LLMの創造性と論理的推論の両面を評価するために, Balderdash を利用したシミュレーションフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-15T18:42:48Z)
Reasoning with Large Language Models, a Survey [2.831296564800826]
本稿では,LSMによるプロンプトベース推論の急速に進展する分野について概説する。我々の分類学は、多段階推論の生成、評価、制御の異なる方法を特定します。我々は, 自己改善, 自己回帰, 推論過程のいくつかのメタ能力が, プロンプトの司法的利用によって可能であることを発見した。
論文参考訳（メタデータ） (2024-07-16T08:49:35Z)
Eliciting Better Multilingual Structured Reasoning from LLMs through Code [17.870002864331322]
我々は6言語にまたがる4つのタスクを網羅する,xSTREETと呼ばれる多言語構造推論と説明データセットを提案する。 xSTREETは、英語と非英語の推論タスクの基本的なLLMパフォーマンスのギャップを露呈する。このギャップを緩和する2つの方法を提案する。
論文参考訳（メタデータ） (2024-03-05T00:48:56Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文参考訳（メタデータ） (2023-11-30T03:59:31Z)
AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。数学的推論とコモンセンス推論の実験を行う。
論文参考訳（メタデータ） (2023-11-22T17:24:21Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)
Spoken Language Intelligence of Large Language Models for Language Learning [3.5924382852350902]
教育分野における大規模言語モデル(LLM)の有効性を評価することに注力する。上記のシナリオにおけるLLMの有効性を評価するために,新しい複数選択質問データセットを提案する。また,ゼロショット法や少数ショット法など,様々なプロンプト技術の影響についても検討する。異なる大きさのモデルは、音韻学、音韻学、第二言語習得の概念をよく理解しているが、実世界の問題に対する推論には限界がある。
論文参考訳（メタデータ） (2023-08-28T12:47:41Z)
ChatABL: Abductive Learning via Natural Language Interaction with ChatGPT [72.83383437501577]
大規模言語モデル(LLM)は、最近数学的な能力において大きな可能性を証明している。 LLMは現在、認識、言語理解、推論能力のブリッジングに困難を抱えている。本稿では, LLMを帰納学習フレームワークに統合する新しい手法を提案する。
論文参考訳（メタデータ） (2023-04-21T16:23:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。