論文の概要: Can LLMs Help Improve Analogical Reasoning For Strategic Decisions? Experimental Evidence from Humans and GPT-4
- arxiv url: http://arxiv.org/abs/2505.00603v1
- Date: Thu, 01 May 2025 15:35:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.35713
- Title: Can LLMs Help Improve Analogical Reasoning For Strategic Decisions? Experimental Evidence from Humans and GPT-4
- Title(参考訳): LLMは戦略的決定のためのアナロジー推論の改善に役立つか? : 人間とGPT-4による実験的証拠
- Authors: Phanish Puranam, Prothit Sen, Maciej Workiewicz,
- Abstract要約: 本研究では,大規模言語モデル,特にGPT4が,類推的推論において人間の能力と一致するかどうかを検討する。
ターゲットマッチングのためのソースを含む新しい実験設計を用いて、GPT4は、すべてのプラウチブルなアナロジーを検索することで高いリコールを達成するが、精度は低い。
人間の被験者は高精度だが低いリコールを示し、因果関係の強い類似性は少ない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates whether large language models, specifically GPT4, can match human capabilities in analogical reasoning within strategic decision making contexts. Using a novel experimental design involving source to target matching, we find that GPT4 achieves high recall by retrieving all plausible analogies but suffers from low precision, frequently applying incorrect analogies based on superficial similarities. In contrast, human participants exhibit high precision but low recall, selecting fewer analogies yet with stronger causal alignment. These findings advance theory by identifying matching, the evaluative phase of analogical reasoning, as a distinct step that requires accurate causal mapping beyond simple retrieval. While current LLMs are proficient in generating candidate analogies, humans maintain a comparative advantage in recognizing deep structural similarities across domains. Error analysis reveals that AI errors arise from surface level matching, whereas human errors stem from misinterpretations of causal structure. Taken together, the results suggest a productive division of labor in AI assisted organizational decision making where LLMs may serve as broad analogy generators, while humans act as critical evaluators, applying the most contextually appropriate analogies to strategic problems.
- Abstract(参考訳): 本研究では,大規模言語モデル,特にGPT4が,戦略的意思決定コンテキストにおける類似推論において,人間の能力と一致するかどうかを検討する。
ターゲットマッチングにソースを含む新しい実験設計を用いて、GPT4は、すべての可視類似性を取得することで高いリコールを達成するが、低精度に悩まされ、表面類似性に基づいてしばしば不正確な類似性を適用する。
対照的に、ヒトの被験者は高い精度だが低いリコールを示し、より強力な因果関係を持つアナログを選択できない。
これらの知見は、類似推論の評価段階であるマッチングを、単純な検索以上の正確な因果写像を必要とする別のステップとして同定することで、理論を前進させた。
現在のLLMは、候補となる類似点を生成するのに熟練しているが、人間はドメイン間の深い構造的類似点を認識する上で、比較上の優位性を維持している。
エラー解析では、AIエラーは表面レベルのマッチングから生じるが、ヒューマンエラーは因果構造の誤解釈から生じる。
まとめると、AIにおける生産的な労働の分担は、LLMが幅広い類推ジェネレータとして機能し、人間は重要な評価器として機能し、最も文脈的に適切な類推を戦略的問題に適用する組織決定を支援することを示唆している。
関連論文リスト
- ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability [62.285407189502216]
LLM(Large Language Models)によって生成されたテキストの検出は、誤った判断によって致命的な誤りを引き起こす可能性がある。
本稿では,人間の意思決定プロセスに根ざした解釈可能な検出手法であるExaGPTを紹介する。
以上の結果から,ExaGPTは従来の強力な検出器よりも最大で40.9ポイントの精度を1%の偽陽性率で大きく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T01:15:07Z) - JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
我々は、大言語モデルの厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。
JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。
実験の結果,ほとんどのSOTA (State-of-the-art (SOTA) LLMは人体平均よりも著しく低下していることがわかった。
論文 参考訳(メタデータ) (2025-01-24T15:49:10Z) - Evaluating the Robustness of Analogical Reasoning in Large Language Models [6.5855735579366685]
LLMのアナログ生成能力のロバスト性について検討した。
我々は,従来の類推問題に対するロバスト性について,人間とGPTモデルを検証した。
人間とは異なり、GPTモデルの性能は答え順序の影響を受けやすい。
論文 参考訳(メタデータ) (2024-11-21T15:25:08Z) - Uncovering Factor Level Preferences to Improve Human-Model Alignment [58.50191593880829]
PROFILEは、好みを駆動する特定の要因の影響を明らかにし、定量化するフレームワークである。
ProFILE の因子レベル分析は、人間モデルのアライメントと不適応の背後にある 'なぜ' を説明している。
我々は、不整合要因に対処するなど、要因レベルの洞察の活用が、人間の嗜好との整合性をいかに改善するかを実証する。
論文 参考訳(メタデータ) (2024-10-09T15:02:34Z) - LLMs as Models for Analogical Reasoning [14.412456982731467]
アナロジカル推論は人間の認知と学習の基本である。
近年の研究では、大きな言語モデルが類似の推論タスクにおいて人間と一致することが示されている。
論文 参考訳(メタデータ) (2024-06-19T20:07:37Z) - Comparing Inferential Strategies of Humans and Large Language Models in Deductive Reasoning [25.732397636695882]
大規模言語モデル(LLM)では,人間の観察と類似した推論パターンが示される。
我々の研究は、モデルの構造と規模が、その好む推論方法に大きく影響していることを示します。
論文 参考訳(メタデータ) (2024-02-20T12:58:14Z) - Using Counterfactual Tasks to Evaluate the Generality of Analogical
Reasoning in Large Language Models [7.779982757267302]
大型言語モデル(LLMs)において従来主張されていた類推能力の一般性について検討する。
すべての問題に対して人間のパフォーマンスは高いままであるが、GPTモデルの性能は反ファクトセットで急激に低下している。
論文 参考訳(メタデータ) (2024-02-14T05:52:23Z) - Large Language Models for Psycholinguistic Plausibility Pretesting [47.1250032409564]
本稿では,言語モデル (LM) が妥当性判定に有効かどうかを検討する。
その結果, GPT-4の妥当性判定は, 調査対象の構造全体にわたって, 人間の判断と高い相関関係があることが判明した。
そして、この相関関係が、人間の代わりにLMを使うことを暗示するかどうかを検証した。
論文 参考訳(メタデータ) (2024-02-08T07:20:02Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - ARN: Analogical Reasoning on Narratives [13.707344123755126]
我々は、物語要素を用いて表面マッピングとシステムマッピングを作成する、アナロジーの支配的理論を運用するフレームワークを開発する。
すべてのLLMがほぼ類似点を認識できるが、最大でもゼロショット環境では極端に類似点に苦戦している。
論文 参考訳(メタデータ) (2023-10-02T08:58:29Z) - ANALOGYKB: Unlocking Analogical Reasoning of Language Models with A Million-scale Knowledge Base [51.777618249271725]
ANALOGYKBは、既存の知識グラフ(KGs)から派生した100万スケールのアナロジー知識ベースである
1)KGから直接抽出できる同一関係のアナロジー、2)大きな言語モデル(LLM)によって実現される選択とフィルタリングパイプラインと識別される類似関係のアナロジーである。
論文 参考訳(メタデータ) (2023-05-10T09:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。