論文の概要: Logic-Enhanced Language Model Agents for Trustworthy Social Simulations
- arxiv url: http://arxiv.org/abs/2408.16081v1
- Date: Wed, 28 Aug 2024 18:25:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 17:43:40.858285
- Title: Logic-Enhanced Language Model Agents for Trustworthy Social Simulations
- Title(参考訳): 信頼できる社会シミュレーションのための論理強化型言語モデルエージェント
- Authors: Agnieszka Mensfelt, Kostas Stathis, Vince Trencsenyi,
- Abstract要約: 本研究では,人間のインタラクションモデルとしてのゲーム理論シナリオにおける意思決定に焦点を当てた。
本稿では,社会シミュレーションの信頼性を高める新しいアプローチである論理強化言語モデルエージェント(LELMA)フレームワークを紹介する。
- 参考スコア(独自算出の注目度): 3.5083201638203154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Logic-Enhanced Language Model Agents (LELMA) framework, a novel approach to enhance the trustworthiness of social simulations that utilize large language models (LLMs). While LLMs have gained attention as agents for simulating human behaviour, their applicability in this role is limited by issues such as inherent hallucinations and logical inconsistencies. LELMA addresses these challenges by integrating LLMs with symbolic AI, enabling logical verification of the reasoning generated by LLMs. This verification process provides corrective feedback, refining the reasoning output. The framework consists of three main components: an LLM-Reasoner for producing strategic reasoning, an LLM-Translator for mapping natural language reasoning to logic queries, and a Solver for evaluating these queries. This study focuses on decision-making in game-theoretic scenarios as a model of human interaction. Experiments involving the Hawk-Dove game, Prisoner's Dilemma, and Stag Hunt highlight the limitations of state-of-the-art LLMs, GPT-4 Omni and Gemini 1.0 Pro, in producing correct reasoning in these contexts. LELMA demonstrates high accuracy in error detection and improves the reasoning correctness of LLMs via self-refinement, particularly in GPT-4 Omni.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)を利用した社会シミュレーションの信頼性向上を目的とした,論理強化言語モデルエージェント(LELMA)フレームワークを紹介する。
LLMは人間の行動をシミュレートするエージェントとして注目されているが、その役割における適用性は、固有の幻覚や論理的矛盾といった問題によって制限されている。
LELMAは、LLMとシンボリックAIを統合することでこれらの課題に対処し、LLMが生成する推論の論理的検証を可能にする。
この検証プロセスは、推論出力を精査し、修正的なフィードバックを提供する。
フレームワークは、戦略的推論を生成するLLM-Reasoner、自然言語推論を論理クエリにマッピングするLLM-Translator、これらのクエリを評価するSolverの3つの主要コンポーネントで構成されている。
本研究では,人間のインタラクションモデルとしてのゲーム理論シナリオにおける意思決定に焦点を当てた。
Hawk-Doveゲーム、Prisoner's Dilemma、Stag Huntを含む実験は、これらの文脈で正しい推論を生成する上で、最先端のLLM、GPT-4 Omni、Gemini 1.0 Proの限界を強調している。
LELMAはエラー検出において高い精度を示し、特にGPT-4 Omniにおいて自己精製によるLCMの推論精度を向上させる。
関連論文リスト
- Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Can Language Models Pretend Solvers? Logic Code Simulation with LLMs [3.802945676202634]
トランスフォーマーベースの大規模言語モデル(LLM)は、論理問題に対処する上で大きな可能性を示している。
この研究は、論理コードシミュレーションという新しい側面に発展し、論理プログラムの結果を予測するために論理解法をエミュレートするよう LLM に強制する。
論文 参考訳(メタデータ) (2024-03-24T11:27:16Z) - Can LLMs Compute with Reasons? [4.995189458714599]
大規模言語モデル(LLM)は複雑な数学的タスクに苦しむことが多く、誤った答えを「幻覚させる」傾向がある。
本研究では,Small LangSLMの分散ネットワークを利用した「帰納学習」手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T12:04:25Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Improving Large Language Models in Event Relation Logical Prediction [33.88499005859982]
イベント関係抽出は、綿密な意味的理解と厳密な論理的推論を必要とする課題である。
本稿では,イベント関連論理の理解と適用におけるLLMの能力について,詳細な調査を行う。
本研究により,LLMは論理的に一貫した推論子ではないことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z) - Logic-LM: Empowering Large Language Models with Symbolic Solvers for
Faithful Logical Reasoning [101.26814728062065]
大規模言語モデル(LLM)は人間のような推論能力を示しているが、それでも複雑な論理的問題に悩まされている。
本稿では,論理問題の解法を改善するために,LLMとシンボリックソルバを統合した新しいフレームワークであるLogic-LMを紹介する。
論文 参考訳(メタデータ) (2023-05-20T22:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。