論文の概要: Logic-Enhanced Language Model Agents for Trustworthy Social Simulations
- arxiv url: http://arxiv.org/abs/2408.16081v1
- Date: Wed, 28 Aug 2024 18:25:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-30 17:43:40.858285
- Title: Logic-Enhanced Language Model Agents for Trustworthy Social Simulations
- Title(参考訳): 信頼できる社会シミュレーションのための論理強化型言語モデルエージェント
- Authors: Agnieszka Mensfelt, Kostas Stathis, Vince Trencsenyi,
- Abstract要約: 本研究では,人間のインタラクションモデルとしてのゲーム理論シナリオにおける意思決定に焦点を当てた。
本稿では,社会シミュレーションの信頼性を高める新しいアプローチである論理強化言語モデルエージェント(LELMA)フレームワークを紹介する。
- 参考スコア(独自算出の注目度): 3.5083201638203154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Logic-Enhanced Language Model Agents (LELMA) framework, a novel approach to enhance the trustworthiness of social simulations that utilize large language models (LLMs). While LLMs have gained attention as agents for simulating human behaviour, their applicability in this role is limited by issues such as inherent hallucinations and logical inconsistencies. LELMA addresses these challenges by integrating LLMs with symbolic AI, enabling logical verification of the reasoning generated by LLMs. This verification process provides corrective feedback, refining the reasoning output. The framework consists of three main components: an LLM-Reasoner for producing strategic reasoning, an LLM-Translator for mapping natural language reasoning to logic queries, and a Solver for evaluating these queries. This study focuses on decision-making in game-theoretic scenarios as a model of human interaction. Experiments involving the Hawk-Dove game, Prisoner's Dilemma, and Stag Hunt highlight the limitations of state-of-the-art LLMs, GPT-4 Omni and Gemini 1.0 Pro, in producing correct reasoning in these contexts. LELMA demonstrates high accuracy in error detection and improves the reasoning correctness of LLMs via self-refinement, particularly in GPT-4 Omni.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)を利用した社会シミュレーションの信頼性向上を目的とした,論理強化言語モデルエージェント(LELMA)フレームワークを紹介する。
LLMは人間の行動をシミュレートするエージェントとして注目されているが、その役割における適用性は、固有の幻覚や論理的矛盾といった問題によって制限されている。
LELMAは、LLMとシンボリックAIを統合することでこれらの課題に対処し、LLMが生成する推論の論理的検証を可能にする。
この検証プロセスは、推論出力を精査し、修正的なフィードバックを提供する。
フレームワークは、戦略的推論を生成するLLM-Reasoner、自然言語推論を論理クエリにマッピングするLLM-Translator、これらのクエリを評価するSolverの3つの主要コンポーネントで構成されている。
本研究では,人間のインタラクションモデルとしてのゲーム理論シナリオにおける意思決定に焦点を当てた。
Hawk-Doveゲーム、Prisoner's Dilemma、Stag Huntを含む実験は、これらの文脈で正しい推論を生成する上で、最先端のLLM、GPT-4 Omni、Gemini 1.0 Proの限界を強調している。
LELMAはエラー検出において高い精度を示し、特にGPT-4 Omniにおいて自己精製によるLCMの推論精度を向上させる。
関連論文リスト
- Guiding Reasoning in Small Language Models with LLM Assistance [23.3038074903744]
小さな言語モデルは、深く、多段階の論理的推論を必要とするタスクに適していると疑念を抱いた。
本稿では,Small Reasons, Large Hintsというフレームワークについて紹介する。
数学的推論データセットを用いた実験により, ターゲットとなる外部足場の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2025-04-14T06:32:45Z) - A Modular Dataset to Demonstrate LLM Abstraction Capability [3.0899016152680754]
大きな言語モデル(LLM)は印象的な能力を示すが、幻覚や論理の欠陥による推論エラーに苦慮している。
ArrangementPuzzleは、構造化されたソリューションと段階的正当性の自動検証を備えた、新しいパズルデータセットである。
このデータセット上で, LLMアクティベーションに関する分類器モデルを訓練した結果, 推論精度の予測において80%以上の精度が得られた。
論文 参考訳(メタデータ) (2025-03-22T04:25:30Z) - Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。
このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。
本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文 参考訳(メタデータ) (2024-10-25T18:36:37Z) - RULEBREAKERS: Challenging LLMs at the Crossroads between Formal Logic and Human-like Reasoning [3.0648414540406703]
RULEBREAKERSは、大規模な言語モデルによるルールブレーカーの認識と応答を人間的な方法で厳格に評価するための最初のデータセットです。
GPT-4oを含むほとんどのモデルでは、RULEBREAKERSの中間精度が得られ、典型的な人間の推論と異なり、論理規則を過度に適用する傾向が見られた。
論文 参考訳(メタデータ) (2024-10-21T20:48:16Z) - Reversal of Thought: Enhancing Large Language Models with Preference-Guided Reverse Reasoning Warm-up [9.42385235462794]
大規模言語モデル(LLM)は、推論タスクにおいて顕著な性能を示すが、数学的および複雑な論理的推論において制限に直面している。
LLMの論理的推論能力の向上を目的とした新しいフレームワークであるReversal of Thought (RoT)を提案する。
RoT は Preference-Guided Reverse Reasoning warm-up 戦略を利用している。
論文 参考訳(メタデータ) (2024-10-16T07:44:28Z) - Alignment Between the Decision-Making Logic of LLMs and Human Cognition: A Case Study on Legal LLMs [43.67312098562139]
本稿では,大規模言語モデルの意思決定ロジックと人間の認知との整合性を評価する手法を提案する。
我々は、LLMによって符号化された相互作用を原始的な決定論理として定量化する。
実験により、言語生成結果が正しいように見える場合でも、内部推論ロジックのかなりの部分が顕著な問題を含んでいることが示された。
論文 参考訳(メタデータ) (2024-10-06T08:33:39Z) - Aligning with Logic: Measuring, Evaluating and Improving Logical Consistency in Large Language Models [31.558429029429863]
我々は,より信頼性が高く信頼性の高いシステムのための前提条件として,Large Language Models (LLM) の論理的一貫性について検討する。
まず、推移性、可換性、否定不変性という3つの基本的なプロキシを通して論理的一貫性を定量化する普遍的枠組みを提案する。
次に,LLMの定義値を用いて論理的整合性を評価し,総合的ロバスト性のための強力なプロキシとして機能できることを実証する。
論文 参考訳(メタデータ) (2024-10-03T04:34:04Z) - Automated Theorem Provers Help Improve Large Language Model Reasoning [0.18416014644193066]
ニューロシンボリック・アーキテクチャーによっていかに精度が向上できるかを示す。
構文的および意味的エラーカテゴリのフレームワークを定義する。
我々は,構文的および意味的誤りを自動的に修正する機能を備えた手法を拡張した。
論文 参考訳(メタデータ) (2024-08-07T01:03:56Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Can Language Models Pretend Solvers? Logic Code Simulation with LLMs [3.802945676202634]
トランスフォーマーベースの大規模言語モデル(LLM)は、論理問題に対処する上で大きな可能性を示している。
この研究は、論理コードシミュレーションという新しい側面に発展し、論理プログラムの結果を予測するために論理解法をエミュレートするよう LLM に強制する。
論文 参考訳(メタデータ) (2024-03-24T11:27:16Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Neuro-Symbolic Integration Brings Causal and Reliable Reasoning Proofs [95.07757789781213]
LLMの複雑な推論には2行のアプローチが採用されている。
1行の作業は様々な推論構造を持つLLMを誘導し、構造出力は自然に中間推論ステップと見なすことができる。
他方の行では、LCMのない宣言的解法を用いて推論処理を行い、推論精度は向上するが、解法のブラックボックスの性質により解釈性に欠ける。
具体的には,Prologインタプリタが生成した中間検索ログにアクセスし,人間可読推論に解釈可能であることを示す。
論文 参考訳(メタデータ) (2023-11-16T11:26:21Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。
LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文 参考訳(メタデータ) (2023-11-10T16:23:50Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z) - Logic-LM: Empowering Large Language Models with Symbolic Solvers for
Faithful Logical Reasoning [101.26814728062065]
大規模言語モデル(LLM)は人間のような推論能力を示しているが、それでも複雑な論理的問題に悩まされている。
本稿では,論理問題の解法を改善するために,LLMとシンボリックソルバを統合した新しいフレームワークであるLogic-LMを紹介する。
論文 参考訳(メタデータ) (2023-05-20T22:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。