論文の概要: Unveiling the General Intelligence Factor in Language Models: A
Psychometric Approach
- arxiv url: http://arxiv.org/abs/2310.11616v1
- Date: Tue, 17 Oct 2023 22:42:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 18:17:12.129005
- Title: Unveiling the General Intelligence Factor in Language Models: A
Psychometric Approach
- Title(参考訳): 言語モデルにおける一般知能要因の解明 : 心理学的アプローチ
- Authors: David Ili\'c
- Abstract要約: 本研究は言語モデルにおける一般知能(g)の要因を明らかにする。
モデル性能の85%を占める一次元で非常に安定なg因子の説得力のある証拠を見出す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study uncovers the factor of general intelligence, or g, in language
models, extending the psychometric theory traditionally applied to humans and
certain animal species. Utilizing factor analysis on two extensive datasets -
Open LLM Leaderboard with 1,232 models and General Language Understanding
Evaluation (GLUE) Leaderboard with 88 models - we find compelling evidence for
a unidimensional, highly stable g factor that accounts for 85% of the variance
in model performance. The study also finds a moderate correlation of .48
between model size and g. The discovery of g in language models offers a
unified metric for model evaluation and opens new avenues for more robust,
g-based model ability assessment. These findings lay the foundation for
understanding and future research on artificial general intelligence from a
psychometric perspective and have practical implications for model evaluation
and development.
- Abstract(参考訳): この研究は、言語モデルにおける一般知性(g)の要因を明らかにし、伝統的に人間や特定の動物に適用される心理計測理論を拡張している。
1,232のモデルを持つopen llm leaderboardと88のモデルを持つgeneral language understanding evaluation (glue) leaderboardの2つの広範なデータセットの因子分析を利用することで、モデル性能の分散の85%を占める一次元、高度に安定なgファクターの説得力のある証拠が得られます。
この研究はまた、モデルサイズとgの間の.48の適度な相関も発見した。
言語モデルにおけるgの発見は、モデル評価のための統一的なメトリクスを提供し、より堅牢でgベースのモデル能力評価のための新しい道を開く。
これらの知見は、心理学的観点からの人工知能の理解と将来の研究の基盤となり、モデル評価と開発に実践的な意味を持つ。
関連論文リスト
- Understanding LLMs' Fluid Intelligence Deficiency: An Analysis of the ARC Task [71.61879949813998]
認知研究において、後者の能力は流体インテリジェンスと呼ばれ、人間のインテリジェンスを評価するために重要であると考えられている。
流体インテリジェンス評価に関する最近の研究は、LLMの能力に重大な欠陥を浮き彫りにした。
本研究は,既存のLSMにおいて,スキル構成能力の制限,抽象的な入力形式に慣れていないこと,左から右への復号化の本質的欠如の3つの大きな限界を明らかにした。
論文 参考訳(メタデータ) (2025-02-11T02:31:09Z) - Judgment of Learning: A Human Ability Beyond Generative Artificial Intelligence [0.0]
大規模言語モデル(LLM)は、様々な言語に基づくタスクにおいて、人間の認知を模倣する傾向にある。
我々は、ChatGPTに基づくLLMが人間の学習判断(JOL)と一致しているかどうかを評価するために、クロスエージェント予測モデルを導入する。
実験の結果,人間のJOLは実際のメモリ性能を確実に予測するが,いずれのLLMも同等の予測精度は示さなかった。
論文 参考訳(メタデータ) (2024-10-17T09:42:30Z) - Neuron-based Personality Trait Induction in Large Language Models [115.08894603023712]
大規模言語モデル (LLM) は、様々な性格特性をシミュレートする能力が増している。
LLMにおけるパーソナリティ特性誘導のためのニューロンに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-16T07:47:45Z) - CogLM: Tracking Cognitive Development of Large Language Models [20.138831477848615]
我々は、Piaget's Theory of Cognitive Developmentに基づくベンチマークCogLMを構築した。
CogLMは、20人以上の専門家によって作られた10の認知能力にまたがる1220の質問で構成されている。
先進的なLSMは、20歳の人間に匹敵する、人間のような認知能力を示している。
論文 参考訳(メタデータ) (2024-08-17T09:49:40Z) - From Pre-training Corpora to Large Language Models: What Factors Influence LLM Performance in Causal Discovery Tasks? [51.42906577386907]
本研究では,因果発見タスクにおけるLarge Language Models(LLM)の性能に影響を与える要因について検討する。
因果関係の頻度が高いことは、より良いモデル性能と相関し、トレーニング中に因果関係の情報に広範囲に暴露することで、因果関係の発見能力を高めることを示唆している。
論文 参考訳(メタデータ) (2024-07-29T01:45:05Z) - Can Language Models Recognize Convincing Arguments? [12.458437450959416]
大規模言語モデル(LLM)は、説得力のある物語を創造し広める可能性について懸念を提起している。
本研究は、説得力のある議論を検知し、その説得力に関する洞察を得るための性能について研究する。
論文 参考訳(メタデータ) (2024-03-31T17:38:33Z) - Comparing Rationality Between Large Language Models and Humans: Insights and Open Questions [6.201550639431176]
本稿では,大規模言語モデル(LLM)の急成長に焦点をあてる。
我々は,LLMの合理性と意思決定能力の増強において,人間フィードバックからの強化学習(RLHF)が果たす重要な役割を強調した。
論文 参考訳(メタデータ) (2024-03-14T18:36:04Z) - Discovery of the Hidden World with Large Language Models [95.58823685009727]
本稿では,大きな言語モデル(LLM)を導入してギャップを埋めるCausal representatiOn AssistanT(COAT)を提案する。
LLMは世界中の大規模な観測に基づいて訓練されており、構造化されていないデータから重要な情報を抽出する優れた能力を示している。
COATはまた、特定変数間の因果関係を見つけるためにCDを採用し、提案された要因を反復的に洗練するためにLSMにフィードバックを提供する。
論文 参考訳(メタデータ) (2024-02-06T12:18:54Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Unveiling A Core Linguistic Region in Large Language Models [49.860260050718516]
本稿では,脳局在化をプロトタイプとして用いた類似研究を行う。
我々は、言語能力に対応する大規模言語モデルにおいて、中核領域を発見した。
我々は,言語能力の向上が必ずしもモデルの知識レベルの向上に伴わないことを観察する。
論文 参考訳(メタデータ) (2023-10-23T13:31:32Z) - Human Behavioral Benchmarking: Numeric Magnitude Comparison Effects in
Large Language Models [4.412336603162406]
大規模言語モデル(LLM)は、テキストで広まる数値を差分表現しない。
本研究では,LLMが行動レンズからどれだけの数の数値を捉えているかを検討する。
論文 参考訳(メタデータ) (2023-05-18T07:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。