論文の概要: Using AI to replicate human experimental results: a motion study
- arxiv url: http://arxiv.org/abs/2507.10342v1
- Date: Mon, 14 Jul 2025 14:47:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:25.167717
- Title: Using AI to replicate human experimental results: a motion study
- Title(参考訳): AIによる人間の実験結果の再現:モーションスタディ
- Authors: Rosa Illan Castillo, Javier Valenzuela,
- Abstract要約: 本稿では,言語研究における信頼性の高い解析ツールとして,大規模言語モデル(LLM)の可能性について検討する。
動作動詞の行儀を含む時間表現における感情的意味の出現に焦点を当てる。
- 参考スコア(独自算出の注目度): 0.11838866556981258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the potential of large language models (LLMs) as reliable analytical tools in linguistic research, focusing on the emergence of affective meanings in temporal expressions involving manner-of-motion verbs. While LLMs like GPT-4 have shown promise across a range of tasks, their ability to replicate nuanced human judgements remains under scrutiny. We conducted four psycholinguistic studies (on emergent meanings, valence shifts, verb choice in emotional contexts, and sentence-emoji associations) first with human participants and then replicated the same tasks using an LLM. Results across all studies show a striking convergence between human and AI responses, with statistical analyses (e.g., Spearman's rho = .73-.96) indicating strong correlations in both rating patterns and categorical choices. While minor divergences were observed in some cases, these did not alter the overall interpretative outcomes. These findings offer compelling evidence that LLMs can augment traditional human-based experimentation, enabling broader-scale studies without compromising interpretative validity. This convergence not only strengthens the empirical foundation of prior human-based findings but also opens possibilities for hypothesis generation and data expansion through AI. Ultimately, our study supports the use of LLMs as credible and informative collaborators in linguistic inquiry.
- Abstract(参考訳): 本稿では,言語研究における信頼性のある分析ツールとしての大規模言語モデル (LLM) の可能性について考察する。
GPT-4のようなLCMは様々なタスクで約束されているが、人間の判断を再現する能力はいまだ精査されている。
まず,4つの心理言語学的研究(創発的意味,原子価変化,感情的文脈における動詞選択,文・絵文字関連)を行い,LLMを用いて同じ課題を再現した。
すべての研究の結果は、人間とAIの反応の顕著な収束を示し、統計分析(例えば、スピアマンのrho = .73-.96)は、評価パターンとカテゴリーの選択の両方に強い相関関係を示す。
軽微な発散が観察された例もあるが, 全体的な解釈結果は変化しなかった。
これらの発見は、LLMが従来の人間による実験を増強し、解釈的妥当性を損なうことなく広範な研究を可能にするという説得力のある証拠である。
この収束は、先行する人間に基づく発見の実証的な基盤を強化するだけでなく、仮説生成やAIによるデータ拡張の可能性も開放する。
究極的には,LLMを言語調査における信頼性と情報的協力者として活用することを支持する。
関連論文リスト
- Word Overuse and Alignment in Large Language Models: The Influence of Learning from Human Feedback [0.0]
大規模言語モデル(LLM)は、"delve"や"intricate"のような特定の用語を過剰に使用することが知られている。
本研究は,LHF(Human Feedback)からの学習の貢献について検討する。
我々はLHF法を実験的にエミュレートすることによりLHFと語彙過剰使用をより確定的に関連付ける。
論文 参考訳(メタデータ) (2025-08-03T21:45:37Z) - How LLMs Comprehend Temporal Meaning in Narratives: A Case Study in Cognitive Evaluation of LLMs [13.822169295436177]
本研究では,人文研究に用いられた物語において,大規模言語モデル(LLM)が言語的側面の時間的意味をどう扱うかを検討する。
以上の結果から,LLMは原型性に過度に依存し,相反する側面判断を生じ,側面から派生した因果推論に苦慮することが明らかとなった。
これらの結果は,LLMのプロセスの側面が人間と根本的に異なり,ロバストな物語理解が欠如していることを示唆している。
論文 参考訳(メタデータ) (2025-07-18T18:28:35Z) - Large Language Models as Neurolinguistic Subjects: Discrepancy between Performance and Competence [49.60849499134362]
本研究では,大言語モデル(LLM)の記号化(形式)および記号化(意味)に関する言語的理解について検討する。
ミニマルペアと診断プローブを組み合わせてモデル層間のアクティベーションパターンを解析する新しい手法を用いて,ニューロ言語学的アプローチを提案する。
その結果,(1)心理言語学的・神経言語学的手法では,言語能力と能力が異なっていること,(2)直接確率測定では言語能力が正確に評価されないこと,(3)指導のチューニングでは能力が大きく変化しないが,性能は向上しないことがわかった。
論文 参考訳(メタデータ) (2024-11-12T04:16:44Z) - Judgment of Learning: A Human Ability Beyond Generative Artificial Intelligence [0.0]
大規模言語モデル(LLM)は、様々な言語に基づくタスクにおいて、人間の認知を模倣する傾向にある。
我々は、ChatGPTに基づくLLMが人間の学習判断(JOL)と一致しているかどうかを評価するために、クロスエージェント予測モデルを導入する。
実験の結果,人間のJOLは実際のメモリ性能を確実に予測するが,いずれのLLMも同等の予測精度は示さなかった。
論文 参考訳(メタデータ) (2024-10-17T09:42:30Z) - The LLM Effect: Are Humans Truly Using LLMs, or Are They Being Influenced By Them Instead? [60.01746782465275]
大規模言語モデル(LLM)は、様々な分析タスクにおいて、人間のパフォーマンスに近い能力を示している。
本稿では,Human-LLMパートナーシップに着目した構造化ユーザスタディにより,特殊作業におけるLLMの効率と精度について検討する。
論文 参考訳(メタデータ) (2024-10-07T02:30:18Z) - Can Language Models Recognize Convincing Arguments? [12.458437450959416]
大規模言語モデル(LLM)は、説得力のある物語を創造し広める可能性について懸念を提起している。
本研究は、説得力のある議論を検知し、その説得力に関する洞察を得るための性能について研究する。
論文 参考訳(メタデータ) (2024-03-31T17:38:33Z) - CausalGym: Benchmarking causal interpretability methods on linguistic
tasks [52.61917615039112]
CausalGymを使って、モデル動作に因果的に影響を及ぼす解釈可能性手法のベンチマークを行う。
ピチアモデル (14M--6.9B) について検討し, 幅広い解釈可能性手法の因果効果について検討した。
DASは他の手法よりも優れており、2つの困難な言語現象の学習軌跡の研究に利用している。
論文 参考訳(メタデータ) (2024-02-19T21:35:56Z) - Six Fallacies in Substituting Large Language Models for Human Participants [0.0]
大規模言語モデル(LLM)のようなAIシステムは、行動研究や心理学研究における人間の参加者を置き換えることができるのだろうか?
ここでは「置き換え」の観点を批判的に評価し、その妥当性を損なう6つの解釈誤りを識別する。
それぞれの誤りは、LSMとは何か、人間の認知について何を教えてくれるのかについて、潜在的な誤解を表している。
論文 参考訳(メタデータ) (2024-02-06T23:28:23Z) - Zero-shot Causal Graph Extrapolation from Text via LLMs [50.596179963913045]
我々は,自然言語から因果関係を推定する大規模言語モデル (LLM) の能力を評価する。
LLMは、(特別な)トレーニングサンプルを必要とせずにペア関係のベンチマークで競合性能を示す。
我々は、反復的なペアワイズクエリを通して因果グラフを外挿するアプローチを拡張した。
論文 参考訳(メタデータ) (2023-12-22T13:14:38Z) - The Adoption and Efficacy of Large Language Models: Evidence From Consumer Complaints in the Financial Industry [2.300664273021602]
本研究は、2015年から2024年までの消費者金融保護局に提出された消費者苦情に対するLarge Language Models(LLMs)の効果について検討する。
LLMの利用は、金融機関から救済を受ける可能性の高まりと関連している。
論文 参考訳(メタデータ) (2023-11-28T04:07:34Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Framework-Based Qualitative Analysis of Free Responses of Large Language
Models: Algorithmic Fidelity [1.7947441434255664]
大規模生成言語モデル(LLM)は、質的研究手法を用いて伝統的に分析されたようなインタビュー質問に対する自由応答をシミュレートすることができる。
本稿では, LLMが生成する人工シリコン参加者について, 定性的手法を用いて生産的に研究できるかどうかを考察する。
論文 参考訳(メタデータ) (2023-09-06T15:00:44Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。