Fugu-MT 論文翻訳(概要): Human Behavioral Benchmarking: Numeric Magnitude Comparison Effects in Large Language Models

論文の概要: Human Behavioral Benchmarking: Numeric Magnitude Comparison Effects in Large Language Models

arxiv url: http://arxiv.org/abs/2305.10782v3
Date: Wed, 8 Nov 2023 12:39:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-09 20:02:33.129876
Title: Human Behavioral Benchmarking: Numeric Magnitude Comparison Effects in Large Language Models
Title（参考訳）: 人間の行動ベンチマーク:大規模言語モデルにおける数値マグニチュード比較効果
Authors: Raj Sanjay Shah, Vijay Marupudi, Reba Koenen, Khushi Bhardwaj, Sashank Varma
Abstract要約: 大規模言語モデル(LLM)は、テキストで広まる数値を差分表現しない。本研究では,LLMが行動レンズからどれだけの数の数値を捉えているかを検討する。
参考スコア（独自算出の注目度）: 4.412336603162406
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large Language Models (LLMs) do not differentially represent numbers, which are pervasive in text. In contrast, neuroscience research has identified distinct neural representations for numbers and words. In this work, we investigate how well popular LLMs capture the magnitudes of numbers (e.g., that $4 < 5$) from a behavioral lens. Prior research on the representational capabilities of LLMs evaluates whether they show human-level performance, for instance, high overall accuracy on standard benchmarks. Here, we ask a different question, one inspired by cognitive science: How closely do the number representations of LLMscorrespond to those of human language users, who typically demonstrate the distance, size, and ratio effects? We depend on a linking hypothesis to map the similarities among the model embeddings of number words and digits to human response times. The results reveal surprisingly human-like representations across language models of different architectures, despite the absence of the neural circuitry that directly supports these representations in the human brain. This research shows the utility of understanding LLMs using behavioral benchmarks and points the way to future work on the number representations of LLMs and their cognitive plausibility.
Abstract（参考訳）: 大規模言語モデル(llm)は、テキストに浸透する数を微分的に表現しない。対照的に、神経科学研究は数と単語の異なる神経表現を同定した。本研究では,LLMが行動レンズから数の大きさ(例えば,その4 < 5$)をどれだけよく捉えているかを検討する。 LLMの表現能力に関する先行研究は、人間レベルの性能、例えば標準ベンチマークで高い総合的精度を示すかどうかを評価する。 LLMの数値表現は、一般的に距離、サイズ、比例効果を示す人間の言語利用者の数値表現とどの程度近いのか? 我々は、数語と数字の埋め込みモデル間の類似性を人間の応答時間にマップするためにリンク仮説に依存する。結果は、人間の脳でこれらの表現を直接サポートする神経回路がないにもかかわらず、異なるアーキテクチャの言語モデルにまたがる驚くほど人間らしい表現を明らかにした。本研究は、行動ベンチマークを用いたLCMの理解の有用性を示し、LCMの数値表現とその認知的妥当性に関する今後の研究の道を示す。

関連論文リスト

Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文参考訳（メタデータ） (2025-06-24T09:49:26Z)
Leveraging Human Production-Interpretation Asymmetries to Test LLM Cognitive Plausibility [7.183662547358301]
大規模言語モデルが人間に類似した言語を処理するかどうかを検討する。いくつかのLCMは、生産と解釈の間に人間のような対称性を定量的に、質的に反映していることがわかった。
論文参考訳（メタデータ） (2025-03-21T23:25:42Z)
Intermediate Languages Matter: Formal Choice Drives Neurosymbolic LLM Reasoning [50.99811144731619]
形式言語の選択は構文的および意味論的推論能力の両方に影響を及ぼすことを示す。平均的な文脈認識エンコーディングはLCMの推論に役立つが、コメントやマークダウン構文を使うことによる明らかな影響はない、と結論付けている。
論文参考訳（メタデータ） (2025-02-24T14:49:52Z)
Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。 GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文参考訳（メタデータ） (2025-02-23T04:21:32Z)
ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。 ExpliCa上で7つの商用およびオープンソース LLM をテストしました。驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文参考訳（メタデータ） (2025-02-21T14:23:14Z)
Analyze the Neurons, not the Embeddings: Understanding When and Where LLM Representations Align with Humans [3.431979707540646]
この研究は、表現アライメントの研究に新しいアプローチを導入している。我々は、特定の概念に責任を持つニューロンを特定するために、アクティベーションステアリングの研究からの手法を採用する。その結果,LLM表現は行動データから推定される人間の表現と密接に一致していることが判明した。
論文参考訳（メタデータ） (2025-02-20T23:08:03Z)
Lost in Inference: Rediscovering the Role of Natural Language Inference for Large Language Models [36.983534612895156]
近年、自然言語理解(NLU)を評価する一般的な方法は、自然言語推論(NLI)タスクを実行するモデルの能力を検討することである。本稿では,異なるスケールの6つのモデルにわたる5つの異なるNLIベンチマークに焦点を当てる。我々は,異なるサイズと品質のモデルを識別できるかどうか,トレーニング中にその精度がどのように発達するかを検討する。
論文参考訳（メタデータ） (2024-11-21T13:09:36Z)
HLB: Benchmarking LLMs' Humanlikeness in Language Use [2.438748974410787]
20大言語モデル(LLM)を評価する総合的人間類似度ベンチマーク(HLB)を提案する。実験では2000人以上の被験者から回答を収集し,LSMの成果と比較した。以上の結果から,LLMが様々な言語レベルにおいてヒトの反応をいかにうまく再現するかの微妙な相違が明らかとなった。
論文参考訳（メタデータ） (2024-09-24T09:02:28Z)
What Are Large Language Models Mapping to in the Brain? A Case Against Over-Reliance on Brain Scores [1.8175282137722093]
大規模言語モデル(LLM)の内部表現は最先端の脳スコアを達成し、人間の言語処理と計算原理を共有するという憶測に繋がる。本稿では、LLM-to-Brainマッピングに関する衝撃的な研究で使用される3つのニューラルデータセットを分析し、参加者が短いパスを読み取るfMRIデータセットに特に焦点をあてる。このデータセット上で訓練されたLLMの脳のスコアは、文の長さ、位置、代名詞による単語の埋め込みによって大きく説明できる。
論文参考訳（メタデータ） (2024-06-03T17:13:27Z)
Will the Real Linda Please Stand up...to Large Language Models? Examining the Representativeness Heuristic in LLMs [7.100094213474042]
大規模言語モデル(LLM)は、テキストをモデル化し、人間に似たテキストを生成するのに顕著な能力を示した。 LLMは、代表性と呼ばれる人間の意思決定において共通の認知的罠に感受性がある。本研究は, LLM推論における代表性の影響について検討する。
論文参考訳（メタデータ） (2024-04-01T20:15:06Z)
Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文参考訳（メタデータ） (2024-03-17T07:08:55Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Divergences between Language Models and Human Brains [63.405788999891335]
最近の研究は、言語モデルの内部表現(LM)を用いて脳信号が効果的に予測できることを示唆している。我々は、LMと人間が言語をどのように表現し、使用するかに明確な違いがあることを示します。我々は、社会的・情緒的知性と身体的常識という、LMによってうまく捉えられていない2つの領域を識別する。
論文参考訳（メタデータ） (2023-11-15T19:02:40Z)
Do LLMs exhibit human-like response biases? A case study in survey design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。 9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文参考訳（メタデータ） (2023-11-07T15:40:43Z)
Roles of Scaling and Instruction Tuning in Language Perception: Model vs. Human Attention [58.817405319722596]
本研究は,複数の大規模言語モデル (LLM) を異なる大きさで自己意識的に比較し,言語知覚に対するスケーリングと指導指導の効果を評価する。その結果,スケーリングは人間の類似性を向上し,簡単なパターン依存を減らし,効果的な注意力を高める一方で,命令チューニングは行わないことがわかった。また、現在のLLMは、注目されているネイティブスピーカーよりも、常に非ネイティブに近づき、全てのモデルの準最適言語知覚が示唆されている。
論文参考訳（メタデータ） (2023-10-29T17:16:40Z)
Probing Large Language Models from A Human Behavioral Perspective [24.109080140701188]
大規模言語モデル(LLM)は、現代のNLPにおいて支配的な基礎モデルとして登場した。フィードフォワードネットワーク (FFN) やマルチヘッド・セルフアテンション (MHSA) などの予測プロセスや内部メカニズムの理解はいまだに未解明のままである。
論文参考訳（メタデータ） (2023-10-08T16:16:21Z)
Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文参考訳（メタデータ） (2020-09-27T02:13:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。