Fugu-MT 論文翻訳(概要): Replicating Human Motivated Reasoning Studies with LLMs

論文の概要: Replicating Human Motivated Reasoning Studies with LLMs

arxiv url: http://arxiv.org/abs/2601.16130v1
Date: Thu, 22 Jan 2026 17:29:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-23 21:37:20.671401
Title: Replicating Human Motivated Reasoning Studies with LLMs
Title（参考訳）: LLMを用いた人間動機付け推論研究の再現
Authors: Neeley Pate, Adiba Mahbub Proma, Hangfeng He, James N. Druckman, Daniel Molden, Gourab Ghoshal, Ehsan Hoque,
Abstract要約: 基礎的なLCMの行動は、期待される人間の行動と一致しない。調査データ収集や議論評価などのタスクを自動化するLLMを用いた研究者にとって,これらの発見の重要性を強調した。
参考スコア（独自算出の注目度）: 4.683500829305989
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Motivated reasoning -- the idea that individuals processing information may be motivated to reach a certain conclusion, whether it be accurate or predetermined -- has been well-explored as a human phenomenon. However, it is unclear whether base LLMs mimic these motivational changes. Replicating 4 prior political motivated reasoning studies, we find that base LLM behavior does not align with expected human behavior. Furthermore, base LLM behavior across models shares some similarities, such as smaller standard deviations and inaccurate argument strength assessments. We emphasize the importance of these findings for researchers using LLMs to automate tasks such as survey data collection and argument assessment.
Abstract（参考訳）: 情報処理の個人が特定の結論に達する動機になるかもしれないという動機付けられた推論は、人間の現象としてよく研究されている。しかし、これらのモチベーションの変化をベースLLMが模倣するかどうかは不明である。従来の4つの政治的動機づけによる推論研究を再現すると、基本的なLCMの行動は期待される人間の行動と一致しないことがわかった。さらに、モデル間の基本的なLCMの挙動は、より小さな標準偏差や不正確な議論強度評価など、いくつかの類似点を共有している。調査データ収集や議論評価などのタスクを自動化するLLMを用いた研究者にとって,これらの発見の重要性を強調した。

関連論文リスト

Position: On the Methodological Pitfalls of Evaluating Base LLMs for Reasoning [6.916679603940271]
既存の研究は、大きな言語モデル(LLM)の制約、人間のようなバイアス、基礎となるプロセスを明らかにするための推論能力について調査している。基礎となるLCMの推論能力の評価は,既存の研究で見過ごされている方法論的懸念を提起する。
論文参考訳（メタデータ） (2025-11-13T14:55:51Z)
Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文参考訳（メタデータ） (2025-08-08T14:46:35Z)
Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文参考訳（メタデータ） (2025-06-24T09:49:26Z)
Language Models Trained to do Arithmetic Predict Human Risky and Intertemporal Choice [4.029252551781513]
本稿では,認知モデルとしての大規模言語モデルの有用性を高める新しい手法を提案する。生態学的に有効な算術的データセットに基づいて事前訓練されたLLMは、従来の認知モデルよりも人間の行動を予測する。
論文参考訳（メタデータ） (2024-05-29T17:37:14Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models -- A Survey [25.732397636695882]
大規模言語モデル(LLM)は、最近、推論を含むタスクで顕著なパフォーマンスを示している。これらの成功にもかかわらず、LLMの推論能力の深さは未だ不明である。
論文参考訳（メタデータ） (2024-04-02T11:46:31Z)
Systematic Biases in LLM Simulations of Debates [12.933509143906141]
人間の相互作用をシミュレートする際の大規模言語モデルの限界について検討する。以上の結果から, LLMエージェントがモデル固有の社会的バイアスに適合する傾向が示唆された。これらの結果は、エージェントがこれらのバイアスを克服するのに役立つ方法を開発するためのさらなる研究の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2024-02-06T14:51:55Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Challenging the Validity of Personality Tests for Large Language Models [2.9123921488295768]
大規模言語モデル(LLM)は、テキストベースのインタラクションにおいて、ますます人間らしく振る舞う。人格検査に対するLLMの反応は、人間の反応から体系的に逸脱する。
論文参考訳（メタデータ） (2023-11-09T11:54:01Z)
Do LLMs exhibit human-like response biases? A case study in survey design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。 9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文参考訳（メタデータ） (2023-11-07T15:40:43Z)
Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。 GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文参考訳（メタデータ） (2023-05-31T15:03:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。