論文の概要: Modeling Understanding of Story-Based Analogies Using Large Language Models
- arxiv url: http://arxiv.org/abs/2507.10957v1
- Date: Tue, 15 Jul 2025 03:40:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.97204
- Title: Modeling Understanding of Story-Based Analogies Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた物語分析のモデル化
- Authors: Kalit Inani, Keshav Kabra, Vijay Marupudi, Sashank Varma,
- Abstract要約: 大規模言語モデルの最近の進歩は、様々なタスクにおける人間の認識のマッチングに近づきつつある。
これらのモデルは、アナログの検出とマッピングにおいて、人間のパフォーマンスとどの程度うまく一致しますか?
- 参考スコア(独自算出の注目度): 1.4999444543328293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have brought them closer to matching human cognition across a variety of tasks. How well do these models align with human performance in detecting and mapping analogies? Prior research has shown that LLMs can extract similarities from analogy problems but lack robust human-like reasoning. Building on Webb, Holyoak, and Lu (2023), the current study focused on a story-based analogical mapping task and conducted a fine-grained evaluation of LLM reasoning abilities compared to human performance. First, it explored the semantic representation of analogies in LLMs, using sentence embeddings to assess whether they capture the similarity between the source and target texts of an analogy, and the dissimilarity between the source and distractor texts. Second, it investigated the effectiveness of explicitly prompting LLMs to explain analogies. Throughout, we examine whether LLMs exhibit similar performance profiles to those observed in humans by evaluating their reasoning at the level of individual analogies, and not just at the level of overall accuracy (as prior studies have done). Our experiments include evaluating the impact of model size (8B vs. 70B parameters) and performance variation across state-of-the-art model architectures such as GPT-4 and LLaMA3. This work advances our understanding of the analogical reasoning abilities of LLMs and their potential as models of human reasoning.
- Abstract(参考訳): 近年のLarge Language Models (LLM) の進歩は、様々なタスクにおける人間の認知のマッチングに近づきつつある。
これらのモデルは、アナログの検出とマッピングにおいて、人間のパフォーマンスとどの程度うまく一致しますか?
以前の研究では、LLMは類推的問題から類似点を抽出できるが、頑健な人間のような推論を欠いていることが示されている。
本研究は,Webb,Holyoak,Lu(2023)を基盤として,物語に基づく類推的マッピングタスクに着目し,人的パフォーマンスと比較したLLM推論能力のきめ細かい評価を行った。
まず, LLMにおける類似文の意味表現について, 文埋め込みを用いて, 類似文と対象テキストとの類似性, ソーステキストとイントラクタテキストの相違性について検討した。
第2に,LLMの類似性の説明を明示的に促す効果について検討した。
本研究は,LLMが人間と類似した性能を示すかどうかを,個々の類似点のレベルで評価し,総合的な精度(先行研究が行ったように)で評価する。
実験では, GPT-4 や LLaMA3 などの最先端モデルアーキテクチャにおけるモデルサイズ (8B と 70B のパラメータ) の影響と性能変動について検討した。
この研究は、LLMの類似推論能力と、人間の推論のモデルとしてのポテンシャルの理解を深める。
関連論文リスト
- Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - LLMs as Models for Analogical Reasoning [14.412456982731467]
アナロジカル推論は人間の認知と学習の基本である。
近年の研究では、大きな言語モデルが類似の推論タスクにおいて人間と一致することが示されている。
論文 参考訳(メタデータ) (2024-06-19T20:07:37Z) - CausalGym: Benchmarking causal interpretability methods on linguistic
tasks [52.61917615039112]
CausalGymを使って、モデル動作に因果的に影響を及ぼす解釈可能性手法のベンチマークを行う。
ピチアモデル (14M--6.9B) について検討し, 幅広い解釈可能性手法の因果効果について検討した。
DASは他の手法よりも優れており、2つの困難な言語現象の学習軌跡の研究に利用している。
論文 参考訳(メタデータ) (2024-02-19T21:35:56Z) - Using Counterfactual Tasks to Evaluate the Generality of Analogical
Reasoning in Large Language Models [7.779982757267302]
大型言語モデル(LLMs)において従来主張されていた類推能力の一般性について検討する。
すべての問題に対して人間のパフォーマンスは高いままであるが、GPTモデルの性能は反ファクトセットで急激に低下している。
論文 参考訳(メタデータ) (2024-02-14T05:52:23Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - StoryAnalogy: Deriving Story-level Analogies from Large Language Models
to Unlock Analogical Understanding [72.38872974837462]
大規模ストーリーレベルの類似語コーパスを構築することにより,類似語を識別・生成する能力を評価する。
textscStory Analogyには、さまざまなドメインから24Kストーリーペアが含まれており、拡張された構造マッピング理論の2つの類似点に人間のアノテーションがある。
我々は、textscStory Analogyのデータは、大言語モデルにおけるアナログ生成の品質を向上させることができることを観察した。
論文 参考訳(メタデータ) (2023-10-19T16:29:23Z) - Can language models learn analogical reasoning? Investigating training objectives and comparisons to human performance [0.0]
我々は、基本的なアナロジー推論を学習するいくつかの方法を試し、特に人間のアナロジー推論を評価するために使われるものよりも典型的なアナロジーに焦点をあてる。
実験の結果,少量のデータであっても,モデルが類似推論を学習できることが判明した。
論文 参考訳(メタデータ) (2023-10-09T10:34:38Z) - ANALOGYKB: Unlocking Analogical Reasoning of Language Models with A Million-scale Knowledge Base [51.777618249271725]
ANALOGYKBは、既存の知識グラフ(KGs)から派生した100万スケールのアナロジー知識ベースである
1)KGから直接抽出できる同一関係のアナロジー、2)大きな言語モデル(LLM)によって実現される選択とフィルタリングパイプラインと識別される類似関係のアナロジーである。
論文 参考訳(メタデータ) (2023-05-10T09:03:01Z) - ANALOGICAL -- A Novel Benchmark for Long Text Analogy Evaluation in
Large Language Models [1.4546044532817048]
ANALOGICALは、大規模言語モデルを本質的に評価する新しいベンチマークである。
以上の結果から, LLM が類型分類に進出する際, 類型分類を識別することがますます困難になっていることが明らかとなった。
論文 参考訳(メタデータ) (2023-05-08T21:12:20Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。