Fugu-MT 論文翻訳(概要): Leveraging Human Production-Interpretation Asymmetries to Test LLM Cognitive Plausibility

論文の概要: Leveraging Human Production-Interpretation Asymmetries to Test LLM Cognitive Plausibility

arxiv url: http://arxiv.org/abs/2503.17579v1
Date: Fri, 21 Mar 2025 23:25:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 16:32:16.718243
Title: Leveraging Human Production-Interpretation Asymmetries to Test LLM Cognitive Plausibility
Title（参考訳）: LLM認知可視性テストのための人為的生産解釈対称性の活用
Authors: Suet-Ying Lam, Qingcheng Zeng, Jingyi Wu, Rob Voigt,
Abstract要約: 大規模言語モデルが人間に類似した言語を処理するかどうかを検討する。いくつかのLCMは、生産と解釈の間に人間のような対称性を定量的に、質的に反映していることがわかった。
参考スコア（独自算出の注目度）: 7.183662547358301
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Whether large language models (LLMs) process language similarly to humans has been the subject of much theoretical and practical debate. We examine this question through the lens of the production-interpretation distinction found in human sentence processing and evaluate the extent to which instruction-tuned LLMs replicate this distinction. Using an empirically documented asymmetry between production and interpretation in humans for implicit causality verbs as a testbed, we find that some LLMs do quantitatively and qualitatively reflect human-like asymmetries between production and interpretation. We demonstrate that whether this behavior holds depends upon both model size - with larger models more likely to reflect human-like patterns and the choice of meta-linguistic prompts used to elicit the behavior.
Abstract（参考訳）: 大型言語モデル(LLM)が人間と類似した処理言語であるかどうかについては、理論的および実践的な議論の対象となっている。本稿では,人間の文処理で見いだされる生産・解釈の区別のレンズを通してこの問題を検証し,この区別を再現する程度を評価する。暗黙の因果動詞をテストベッドとして人間における生成と解釈の間の非対称性を実証的に文書化した結果、一部のLLMは生産と解釈の間の人間のような非対称性を定量的に質的に反映していることがわかった。この行動がモデルのサイズに依存しているかどうかを示す。大きなモデルでは、人間のようなパターンを反映しやすくなり、行動を引き出すのに使用されるメタ言語的プロンプトが選択される。

関連論文リスト

Turing Representational Similarity Analysis (RSA): A Flexible Method for Measuring Alignment Between Human and Artificial Intelligence [0.62914438169038]
我々は,AIと人間間のアライメントを定量化するために,ペアの類似度評価を用いたチューリング表現類似度分析(RSA)を開発した。我々は,テキストと画像のモダリティ間のセマンティックアライメント(セマンティックアライメント)を検証し,Large Language and Vision Language Model(LLM, VLM)の類似性判断が,グループレベルでも個人レベルでも人間の反応とどのように一致しているかを測定した。
論文参考訳（メタデータ） (2024-11-30T20:24:52Z)
Uncovering Factor Level Preferences to Improve Human-Model Alignment [58.50191593880829]
PROFILEは、好みを駆動する特定の要因の影響を明らかにし、定量化するフレームワークである。 ProFILE の因子レベル分析は、人間モデルのアライメントと不適応の背後にある 'なぜ' を説明している。我々は、不整合要因に対処するなど、要因レベルの洞察の活用が、人間の嗜好との整合性をいかに改善するかを実証する。
論文参考訳（メタデータ） (2024-10-09T15:02:34Z)
HLB: Benchmarking LLMs' Humanlikeness in Language Use [2.438748974410787]
20大言語モデル(LLM)を評価する総合的人間類似度ベンチマーク(HLB)を提案する。実験では2000人以上の被験者から回答を収集し,LSMの成果と比較した。以上の結果から,LLMが様々な言語レベルにおいてヒトの反応をいかにうまく再現するかの微妙な相違が明らかとなった。
論文参考訳（メタデータ） (2024-09-24T09:02:28Z)
LLMs as Models for Analogical Reasoning [14.412456982731467]
アナロジカル推論は人間の認知と学習の基本である。近年の研究では、大きな言語モデルが類似の推論タスクにおいて人間と一致することが示されている。
論文参考訳（メタデータ） (2024-06-19T20:07:37Z)
A Survey on Human Preference Learning for Large Language Models [81.41868485811625]
近年の多目的大言語モデル(LLM)の急激な増加は、より有能な基礎モデルと人間の意図を優先学習によって整合させることに大きく依存している。本調査では、選好フィードバックのソースとフォーマット、選好信号のモデリングと使用、および、整列 LLM の評価について述べる。
論文参考訳（メタデータ） (2024-06-17T03:52:51Z)
Is Self-knowledge and Action Consistent or Not: Investigating Large Language Model's Personality [11.660251022962141]
大規模言語モデル(LLM)の人格特性の把握における従来のパーソナリティアンケートの有効性について検討する。本研究の目的は, LLM が持つ性格特性と実世界のシナリオにおけるその傾向の一致を評価することである。
論文参考訳（メタデータ） (2024-02-22T16:32:08Z)
CausalGym: Benchmarking causal interpretability methods on linguistic tasks [52.61917615039112]
CausalGymを使って、モデル動作に因果的に影響を及ぼす解釈可能性手法のベンチマークを行う。ピチアモデル (14M--6.9B) について検討し, 幅広い解釈可能性手法の因果効果について検討した。 DASは他の手法よりも優れており、2つの困難な言語現象の学習軌跡の研究に利用している。
論文参考訳（メタデータ） (2024-02-19T21:35:56Z)
A Theory of LLM Sampling: Part Descriptive and Part Prescriptive [53.08398658452411]
大規模言語モデル(LLM)は、自律的な意思決定にますます活用されている。このサンプリング行動が人間の意思決定と類似していることが示される。統計的ノルムから規範的成分へのサンプルの偏りは、様々な現実世界の領域にまたがる概念に一貫して現れることを示す。
論文参考訳（メタデータ） (2024-02-16T18:28:43Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Divergences between Language Models and Human Brains [59.100552839650774]
我々は,人間と機械語処理の相違点を体系的に探求する。我々は、LMがうまく捉えられない2つの領域、社会的/感情的知性と身体的常識を識別する。以上の結果から,これらの領域における微調整LMは,ヒト脳反応との整合性を向上させることが示唆された。
論文参考訳（メタデータ） (2023-11-15T19:02:40Z)
Do LLMs exhibit human-like response biases? A case study in survey design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。 9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文参考訳（メタデータ） (2023-11-07T15:40:43Z)
Tokenization Preference for Human and Machine Learning Model: An Annotation Study [6.399914034380356]
本研究では,人間のトークン化と機械学習モデル(ML)の関係について検討した。我々は,人間とMLモデルによる回答のパフォーマンス,トークン化の適切性,質問に対する回答時間との関係を解析した。
論文参考訳（メタデータ） (2023-04-21T08:49:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。