Fugu-MT 論文翻訳(概要): Language models show human-like content effects on reasoning tasks

論文の概要: Language models show human-like content effects on reasoning tasks

arxiv url: http://arxiv.org/abs/2207.07051v3
Date: Mon, 30 Oct 2023 08:17:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 01:25:15.242591
Title: Language models show human-like content effects on reasoning tasks
Title（参考訳）: 推論タスクに人間のようなコンテンツ効果を示す言語モデル
Authors: Ishita Dasgupta, Andrew K. Lampinen, Stephanie C. Y. Chan, Hannah R. Sheahan, Antonia Creswell, Dharshan Kumaran, James L. McClelland, Felix Hill
Abstract要約: 抽象推論はインテリジェントシステムにとって重要な能力である。例えば、大言語モデル (LM) は推論タスクにおいて上述の精度を達成するが、多くの不完全性を示す。パフォーマンスの場合、推論は人間の知識と内容に影響を受けます。この知見は,人間の認知的影響を理解することにつながる。
参考スコア（独自算出の注目度）: 34.943954878281254
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Abstract reasoning is a key ability for an intelligent system. Large language models (LMs) achieve above-chance performance on abstract reasoning tasks, but exhibit many imperfections. However, human abstract reasoning is also imperfect. For example, human reasoning is affected by our real-world knowledge and beliefs, and shows notable "content effects"; humans reason more reliably when the semantic content of a problem supports the correct logical inferences. These content-entangled reasoning patterns play a central role in debates about the fundamental nature of human intelligence. Here, we investigate whether language models $\unicode{x2014}$ whose prior expectations capture some aspects of human knowledge $\unicode{x2014}$ similarly mix content into their answers to logical problems. We explored this question across three logical reasoning tasks: natural language inference, judging the logical validity of syllogisms, and the Wason selection task. We evaluate state of the art large language models, as well as humans, and find that the language models reflect many of the same patterns observed in humans across these tasks $\unicode{x2014}$ like humans, models answer more accurately when the semantic content of a task supports the logical inferences. These parallels are reflected both in answer patterns, and in lower-level features like the relationship between model answer distributions and human response times. Our findings have implications for understanding both these cognitive effects in humans, and the factors that contribute to language model performance.
Abstract（参考訳）: 抽象推論はインテリジェントシステムにとって重要な能力である。大規模言語モデル (LM) は抽象的推論タスクにおいて上述のパフォーマンスを達成するが、多くの不完全性を示す。しかし、人間の抽象的推論も不完全である。例えば、人間の推論は現実世界の知識と信念に影響され、顕著な「コンテンツ効果」を示す。これらの内容に絡み合った推論パターンは、人間の知性の基本的性質に関する議論において中心的な役割を果たす。ここでは、言語モデル $\unicode{x2014}$ が人間の知識のいくつかの側面を捉えた事前の期待値 $\unicode{x2014}$ が、同様にコンテンツを論理問題への解に混合するかどうかを考察する。自然言語推論,文節の論理的妥当性の判断,wason選択課題の3つの論理的推論課題について検討した。言語モデルは、これらのタスクで観察されるのと同じパターンの多くを反映している。$\unicode{x2014}$ 人間と同様に、タスクのセマンティックコンテンツが論理的推論をサポートする場合、モデルはより正確に答える。これらの並列性は、応答パターンと、モデル応答分布と人間の応答時間の関係のような低レベルの特徴の両方に反映される。本研究は,これらの認知的影響と言語モデルの性能に寄与する要因の両方を理解することにつながる。

関連論文リスト

Stronger Language Models Produce More Human-Like Errors [0.0]
モデル高度化に伴い、全体的な推論能力は増大するが、エラーの性質は予測可能な人間の推論誤信を反映する傾向にある。我々は,383の推論タスクにおける38の言語モデルを評価することによって,人間が予測できる論理的推論問題を生成する。我々の分析は、モデルが一般的な能力に進化するにつれて、ETR予測された人間の誤動作に対応する不正確な回答の割合が増加する傾向にあることを示している。
論文参考訳（メタデータ） (2025-06-10T17:04:33Z)
Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文参考訳（メタデータ） (2025-05-23T02:46:18Z)
Human-Aligned Bench: Fine-Grained Assessment of Reasoning Ability in MLLMs vs. Humans [9.315735862658244]
マルチモーダル推論と人的パフォーマンスのアライメントのためのベンチマークであるHuman-Aligned Benchを提案する。両言語(中国語と英語)の多モーダル質問や純粋テキストベースの質問など、文脈的推論のみに依存する9,794の多モーダル質問を収集した。マルチモーダル推論におけるMLLMの性能と人為的性能との間には顕著な違いがある。
論文参考訳（メタデータ） (2025-05-16T11:41:19Z)
Perceptions of Linguistic Uncertainty by Language Models and Humans [26.69714008538173]
言語モデルが不確実性の言語表現を数値応答にどうマッピングするかを検討する。 10モデル中7モデルで不確実性表現を確率的応答に人間的な方法でマッピングできることが判明した。この感度は、言語モデルは以前の知識に基づいてバイアスの影響を受けやすいことを示している。
論文参考訳（メタデータ） (2024-07-22T17:26:12Z)
Conceptual and Unbiased Reasoning in Language Models [98.90677711523645]
本稿では,抽象的質問に対する概念的推論をモデルに強制する,新しい概念化フレームワークを提案する。既存の大規模言語モデルは概念的推論では不足しており、様々なベンチマークでは9%から28%に低下している。ハイレベルな抽象的推論が不偏で一般化可能な意思決定の鍵となるので、モデルがどのように改善できるかについて議論する。
論文参考訳（メタデータ） (2024-03-30T00:53:53Z)
UNcommonsense Reasoning: Abductive Reasoning about Uncommon Situations [62.71847873326847]
異常、予期せぬ、そしてありそうもない状況をモデル化する能力について検討する。予期せぬ結果のコンテキストが与えられた場合、このタスクは説明を生成するために故意に推論する必要がある。私たちはUNcommonsenseという新しい英語コーパスをリリースします。
論文参考訳（メタデータ） (2023-11-14T19:00:55Z)
A Systematic Comparison of Syllogistic Reasoning in Humans and Language Models [39.77445889769015]
言語モデルのPaLM2ファミリにおいて、より大きなモデルはより小さなモデルよりも論理的であることを示す。最大のモデルでさえ体系的な誤りを犯し、その一部は人間の推論バイアスを反映している。全体として、言語モデルはトレーニングデータに含まれる人間のバイアスを模倣することが多いが、場合によってはそれを克服することができる。
論文参考訳（メタデータ） (2023-11-01T11:13:06Z)
Learning the meanings of function words from grounded language using a visual question answering model [28.10687343493772]
近年のニューラルネットワークに基づく視覚的質問応答モデルでは,複雑な視覚シーンに関する質問に対する回答の一部として,関数語の使用を学習できることが示されている。これらのモデルが論理的結合の意味を学べることや、論理的推論に関する事前の知識がないことが分かりました。本研究は,視覚的に理解された文脈において,機能単語のニュアンス解釈を学習することが可能であることを示す。
論文参考訳（メタデータ） (2023-08-16T18:53:39Z)
The Neuro-Symbolic Inverse Planning Engine (NIPE): Modeling Probabilistic Social Inferences from Linguistic Inputs [50.32802502923367]
確率的目標推論領域における言語駆動の過程と社会的推論への影響について検討する。本稿では,エージェントシナリオの言語入力から目標推定を行うニューロシンボリックモデルを提案する。我々のモデルは人間の反応パターンと密に一致し、LLM単独の使用よりも人間の判断をより良く予測する。
論文参考訳（メタデータ） (2023-06-25T19:38:01Z)
Large Language Models are In-Context Semantic Reasoners rather than Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文参考訳（メタデータ） (2023-05-24T07:33:34Z)
Testing AI on language comprehension tasks reveals insensitivity to underlying meaning [3.335047764053173]
LLM(Large Language Models)は、臨床支援や法的支援から、質問応答や教育まで幅広い分野で採用されている。しかし、リバースエンジニアリングはモラベックのパラドックスによって拘束されており、簡単なスキルは難しい。新たなベンチマークで7つの最先端モデルを体系的に評価する。
論文参考訳（メタデータ） (2023-02-23T20:18:52Z)
A fine-grained comparison of pragmatic language understanding in humans and language models [2.231167375820083]
言語モデルと人間を7つの現実的な現象で比較する。最大のモデルでは精度が高く,人間の誤りパターンと一致していることがわかった。モデルと人間が同様の言語的手がかりに敏感であるという予備的な証拠がある。
論文参考訳（メタデータ） (2022-12-13T18:34:59Z)
Towards Abstract Relational Learning in Human Robot Interaction [73.67226556788498]
人間は環境における実体を豊かに表現する。ロボットが人間とうまく対話する必要がある場合、同様の方法で実体、属性、一般化を表現する必要がある。本研究では,人間とロボットの相互作用を通じて,これらの表現をどのように獲得するかという課題に対処する。
論文参考訳（メタデータ） (2020-11-20T12:06:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。