論文の概要: MindGames: Targeting Theory of Mind in Large Language Models with
Dynamic Epistemic Modal Logic
- arxiv url: http://arxiv.org/abs/2305.03353v1
- Date: Fri, 5 May 2023 08:14:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 14:48:32.807738
- Title: MindGames: Targeting Theory of Mind in Large Language Models with
Dynamic Epistemic Modal Logic
- Title(参考訳): MindGames:動的認識型モーダル論理を用いた大規模言語モデルにおける心の理論
- Authors: Damien Sileo and Antoine Lernould
- Abstract要約: 心の理論 (ToM) は知性の重要な構成要素であるが、正確な測定は議論の対象であり続けている。
以前の研究では、人間が作成した標準テストまたはルールベースのテンプレートを使用して、自然言語処理モデルにヒューマンToMアセスメントを適用しようとした。
本研究では,ToMと重なり合う動的エピステミック論理を用いて,より複雑な問題を発生させる。
- 参考スコア(独自算出の注目度): 2.869669835645836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Theory of Mind (ToM) is a critical component of intelligence, yet accurately
measuring it continues to be a subject of debate. Prior research has attempted
to apply human ToM assessments to natural language processing models using
either human-created standardized tests or rule-based templates. However, these
methods primarily focus on simplistic reasoning and require further validation.
In this study, we utilize dynamic epistemic logic, which has established
overlaps with ToM, to generate more intricate problems. We also introduce novel
verbalization techniques to express these problems using natural language. Our
findings indicate that certain language model scaling (from 70M to 6B and 350M
to 174B) does not consistently yield results better than random chance. While
GPT-4 demonstrates improved epistemic reasoning capabilities, there is still
room for enhancement. Our code and datasets are publicly available
https://github.com/antoinelrnld/modlog
https://huggingface.co/datasets/sileod/mindgames
- Abstract(参考訳): 心の理論 (ToM) は知性の重要な構成要素であるが、正確な測定は議論の対象であり続けている。
以前の研究は、人間が作成した標準テストまたはルールベースのテンプレートを使用して、自然言語処理モデルに人間のトム評価を適用しようと試みた。
しかし、これらの手法は主に単純化された推論に焦点を合わせ、さらなる検証を必要とする。
本研究では,ToMと重なり合う動的エピステミック論理を用いて,より複雑な問題を発生させる。
また,これらの問題を自然言語を用いて表現するための新しい言語化手法を提案する。
以上の結果から,70Mから6B,350Mから174Bまでの言語モデルスケーリングでは,ランダムな確率よりも連続的に結果が得られないことが示唆された。
GPT-4は先天的推論能力の向上を示すが、まだ増強の余地がある。
私たちのコードとデータセットは、https://github.com/antoinelrnld/modlog https://huggingface.co/datasets/sileod/mindgamesで公開されています。
関連論文リスト
- Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。
我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。
評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文 参考訳(メタデータ) (2024-12-12T21:29:00Z) - MeTHanol: Modularized Thinking Language Models with Intermediate Layer Thinking, Decoding and Bootstrapping Reasoning [10.478620397712076]
大規模言語モデルは、人間の表現を合理的に理解し、生成することができるが、完全な思考と推論機構が欠如している可能性がある。
本稿では,自然界における認知メカニズムに動機付けられ,TaSと呼ばれる新しいモデルアーキテクチャを設計する。
思考強化データを用いて言語モデルを訓練し、思考層が合理的な思考を自動的に生成し、最終的にはより合理的な応答を出力することに成功した。
論文 参考訳(メタデータ) (2024-09-18T15:32:48Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Views Are My Own, but Also Yours: Benchmarking Theory of Mind Using Common Ground [6.868969074841911]
自然発生音声対話に基づく最初のToMデータセットであるCommon-ToMを導入し,LMがToMの実証に苦慮していることを示す。
次に,信念の単純で明示的な表現を統合することで,Common-ToM上でのLM性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-04T20:07:17Z) - How Do Humans Write Code? Large Models Do It the Same Way Too [14.954886191356342]
Program-of-Thought(PoT)は、自然言語ベースのChain-of-Thought(CoT)を、大規模言語モデルにおいて最も一般的な方法として置き換える。
PoTを使用すると、CoTと比較して、不正な公式や欠陥論理などの推論エラーがより多く導入される。
本稿では,PoTとCoTの統合を支援する一連の戦略を活用するHTL(Human-Think Language)を提案する。
論文 参考訳(メタデータ) (2024-02-24T05:40:01Z) - MMToM-QA: Multimodal Theory of Mind Question Answering [80.87550820953236]
心の理論 (ToM) は人間レベルの社会知能を持つ機械を開発する上で不可欠な要素である。
最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。
一方、ヒューマンToMはビデオやテキストの理解以上のものです。
人は、利用可能なデータから抽出された概念的表現に基づいて、他人の心について柔軟に推論することができる。
論文 参考訳(メタデータ) (2024-01-16T18:59:24Z) - Minding Language Models' (Lack of) Theory of Mind: A Plug-and-Play
Multi-Character Belief Tracker [72.09076317574238]
ToMは,読解における文字の信念状態を調べるためのプラグアンドプレイ方式である。
ToMは、教師付きベースラインと比較して、配電性能が堅牢でありながら、ゼロオーダー設定でのオフ・ザ・シェルフニューラルネットワーク理論の考え方を強化する。
論文 参考訳(メタデータ) (2023-06-01T17:24:35Z) - ThoughtSource: A central hub for large language model reasoning data [13.185186859548326]
ThoughtSource(リンク)は、CoT(リンク)推論のためのメタデータおよびソフトウェアライブラリである。
ThoughtSourceの目標は、CoTの質的理解を促進することによって、将来の人工知能システムを改善することである。
論文 参考訳(メタデータ) (2023-01-27T08:45:53Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Mind's Eye: Grounded Language Model Reasoning through Simulation [47.654525013443255]
我々は,物理世界における基礎言語モデル推論のパラダイムであるMind's Eyeを提示する。
実験により、マインドズアイは推論能力を大きく向上させることができることが示された。
Mind's Eyeで武装したより小さな言語モデルは、100倍の大きさのモデルと同じようなパフォーマンスを得ることができる。
論文 参考訳(メタデータ) (2022-10-11T11:39:23Z) - TuringAdvice: A Generative and Dynamic Evaluation of Language Use [90.3029315711237]
言語理解モデルのための新しい課題タスクとデータセットであるTuringAdviceを提案する。
現実の人が現在直面している記述された状況を考えると、モデルは自然言語で有益なアドバイスを生成する必要がある。
実証的な結果は、今日のモデルがTuringAdviceで苦労していることを示している。
論文 参考訳(メタデータ) (2020-04-07T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。