論文の概要: Human Behavioral Benchmarking: Numeric Magnitude Comparison Effects in
Large Language Models
- arxiv url: http://arxiv.org/abs/2305.10782v3
- Date: Wed, 8 Nov 2023 12:39:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 20:02:33.129876
- Title: Human Behavioral Benchmarking: Numeric Magnitude Comparison Effects in
Large Language Models
- Title(参考訳): 人間の行動ベンチマーク:大規模言語モデルにおける数値マグニチュード比較効果
- Authors: Raj Sanjay Shah, Vijay Marupudi, Reba Koenen, Khushi Bhardwaj, Sashank
Varma
- Abstract要約: 大規模言語モデル(LLM)は、テキストで広まる数値を差分表現しない。
本研究では,LLMが行動レンズからどれだけの数の数値を捉えているかを検討する。
- 参考スコア(独自算出の注目度): 4.412336603162406
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) do not differentially represent numbers, which
are pervasive in text. In contrast, neuroscience research has identified
distinct neural representations for numbers and words. In this work, we
investigate how well popular LLMs capture the magnitudes of numbers (e.g., that
$4 < 5$) from a behavioral lens. Prior research on the representational
capabilities of LLMs evaluates whether they show human-level performance, for
instance, high overall accuracy on standard benchmarks. Here, we ask a
different question, one inspired by cognitive science: How closely do the
number representations of LLMscorrespond to those of human language users, who
typically demonstrate the distance, size, and ratio effects? We depend on a
linking hypothesis to map the similarities among the model embeddings of number
words and digits to human response times. The results reveal surprisingly
human-like representations across language models of different architectures,
despite the absence of the neural circuitry that directly supports these
representations in the human brain. This research shows the utility of
understanding LLMs using behavioral benchmarks and points the way to future
work on the number representations of LLMs and their cognitive plausibility.
- Abstract(参考訳): 大規模言語モデル(llm)は、テキストに浸透する数を微分的に表現しない。
対照的に、神経科学研究は数と単語の異なる神経表現を同定した。
本研究では,LLMが行動レンズから数の大きさ(例えば,その4 < 5$)をどれだけよく捉えているかを検討する。
LLMの表現能力に関する先行研究は、人間レベルの性能、例えば標準ベンチマークで高い総合的精度を示すかどうかを評価する。
LLMの数値表現は、一般的に距離、サイズ、比例効果を示す人間の言語利用者の数値表現とどの程度近いのか?
我々は、数語と数字の埋め込みモデル間の類似性を人間の応答時間にマップするためにリンク仮説に依存する。
結果は、人間の脳でこれらの表現を直接サポートする神経回路がないにもかかわらず、異なるアーキテクチャの言語モデルにまたがる驚くほど人間らしい表現を明らかにした。
本研究は、行動ベンチマークを用いたLCMの理解の有用性を示し、LCMの数値表現とその認知的妥当性に関する今後の研究の道を示す。
関連論文リスト
- Will the Real Linda Please Stand up...to Large Language Models? Examining the Representativeness Heuristic in LLMs [7.100094213474042]
大規模言語モデル (LLM) は、テキストの理解と人間に似たテキストの生成において、顕著な熟練性を示している。
LLMは、代表性と呼ばれる人間の意思決定において共通の認知的罠の影響を受ける可能性がある。
論文 参考訳(メタデータ) (2024-04-01T20:15:06Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - Do Large Language Models Mirror Cognitive Language Processing? [47.72734808139112]
大規模言語モデル(LLM)は、テキスト理解と論理的推論において顕著な能力を示した。
本研究では,LLM表現と人間の認知信号をブリッジして,LLMが認知言語処理をいかに効果的にシミュレートするかを評価する手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T03:38:20Z) - (Ir)rationality and Cognitive Biases in Large Language Models [2.9008806248012333]
認知心理学文献からのタスクを用いた7つの言語モデルの評価を行った。
人間と同じく、LLMはこれらのタスクに不合理性を示す。
これらのタスクに対してLLMによって誤った答えが与えられる場合、それらはしばしば人間のようなバイアスとは異なる方法で間違っている。
論文 参考訳(メタデータ) (2024-02-14T14:17:21Z) - Instruction-tuning Aligns LLMs to the Human Brain [20.86703074354748]
インストラクションチューニングにより、大きな言語モデルでは、自然言語クエリに対する人間の反応によく似た出力を生成することができる。
インストラクションチューニングが、人間の言語処理とよりよく似た大きな言語モデルを作るかどうかを考察する。
インストラクションチューニングにより、平均6%の脳アライメントが向上するが、行動アライメントにも同様の影響はない。
論文 参考訳(メタデータ) (2023-12-01T13:31:02Z) - Divergences between Language Models and Human Brains [63.405788999891335]
最近の研究は、言語モデルの内部表現(LM)を用いて脳信号が効果的に予測できることを示唆している。
我々は、LMと人間が言語をどのように表現し、使用するかに明確な違いがあることを示します。
我々は、社会的・情緒的知性と身体的常識という、LMによってうまく捉えられていない2つの領域を識別する。
論文 参考訳(メタデータ) (2023-11-15T19:02:40Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Roles of Scaling and Instruction Tuning in Language Perception: Model
vs. Human Attention [58.817405319722596]
本研究は,複数の大規模言語モデル (LLM) を異なる大きさで自己意識的に比較し,言語知覚に対するスケーリングと指導指導の効果を評価する。
その結果,スケーリングは人間の類似性を向上し,簡単なパターン依存を減らし,効果的な注意力を高める一方で,命令チューニングは行わないことがわかった。
また、現在のLLMは、注目されているネイティブスピーカーよりも、常に非ネイティブに近づき、全てのモデルの準最適言語知覚が示唆されている。
論文 参考訳(メタデータ) (2023-10-29T17:16:40Z) - Probing Large Language Models from A Human Behavioral Perspective [24.109080140701188]
大規模言語モデル(LLM)は、現代のNLPにおいて支配的な基礎モデルとして登場した。
フィードフォワードネットワーク (FFN) やマルチヘッド・セルフアテンション (MHSA) などの予測プロセスや内部メカニズムの理解はいまだに未解明のままである。
論文 参考訳(メタデータ) (2023-10-08T16:16:21Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。