Fugu-MT 論文翻訳(概要): Unveiling the General Intelligence Factor in Language Models: A Psychometric Approach

論文の概要: Unveiling the General Intelligence Factor in Language Models: A Psychometric Approach

arxiv url: http://arxiv.org/abs/2310.11616v1
Date: Tue, 17 Oct 2023 22:42:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-19 18:17:12.129005
Title: Unveiling the General Intelligence Factor in Language Models: A Psychometric Approach
Title（参考訳）: 言語モデルにおける一般知能要因の解明 : 心理学的アプローチ
Authors: David Ili\'c
Abstract要約: 本研究は言語モデルにおける一般知能(g)の要因を明らかにする。モデル性能の85%を占める一次元で非常に安定なg因子の説得力のある証拠を見出す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study uncovers the factor of general intelligence, or g, in language models, extending the psychometric theory traditionally applied to humans and certain animal species. Utilizing factor analysis on two extensive datasets - Open LLM Leaderboard with 1,232 models and General Language Understanding Evaluation (GLUE) Leaderboard with 88 models - we find compelling evidence for a unidimensional, highly stable g factor that accounts for 85% of the variance in model performance. The study also finds a moderate correlation of .48 between model size and g. The discovery of g in language models offers a unified metric for model evaluation and opens new avenues for more robust, g-based model ability assessment. These findings lay the foundation for understanding and future research on artificial general intelligence from a psychometric perspective and have practical implications for model evaluation and development.
Abstract（参考訳）: この研究は、言語モデルにおける一般知性(g)の要因を明らかにし、伝統的に人間や特定の動物に適用される心理計測理論を拡張している。 1,232のモデルを持つopen llm leaderboardと88のモデルを持つgeneral language understanding evaluation (glue) leaderboardの2つの広範なデータセットの因子分析を利用することで、モデル性能の分散の85%を占める一次元、高度に安定なgファクターの説得力のある証拠が得られます。この研究はまた、モデルサイズとgの間の.48の適度な相関も発見した。言語モデルにおけるgの発見は、モデル評価のための統一的なメトリクスを提供し、より堅牢でgベースのモデル能力評価のための新しい道を開く。これらの知見は、心理学的観点からの人工知能の理解と将来の研究の基盤となり、モデル評価と開発に実践的な意味を持つ。

関連論文リスト

UniCog: Uncovering Cognitive Abilities of LLMs through Latent Mind Space Analysis [69.50752734049985]
成長する研究機関は、大きな言語モデル(LLM)の認知過程が人間のものと根本的に異なることを示唆している。潜在心空間を介してLLM認知を分析する統一フレームワークUniCogを提案する。
論文参考訳（メタデータ） (2026-01-25T16:19:00Z)
11Plus-Bench: Demystifying Multimodal LLM Spatial Reasoning with Cognitive-Inspired Analysis [54.24689751375923]
本研究では,最先端MLLMの空間的推論能力を評価するためのシステム評価フレームワークを提案する。 14個のMLLMの実験と人間の評価により、現在のMLLMは空間認知の早期の兆候を示すことが明らかとなった。これらの知見は,現在のMLLMの空間的推論能力の出現能力と限界の両方を浮き彫りにしている。
論文参考訳（メタデータ） (2025-08-27T17:22:34Z)
Using AI to replicate human experimental results: a motion study [0.11838866556981258]
本稿では,言語研究における信頼性の高い解析ツールとして,大規模言語モデル(LLM)の可能性について検討する。動作動詞の行儀を含む時間表現における感情的意味の出現に焦点を当てる。
論文参考訳（メタデータ） (2025-07-14T14:47:01Z)
The Emergence of Abstract Thought in Large Language Models Beyond Any Language [95.50197866832772]
大規模言語モデル(LLM)は様々な言語で効果的に機能する。予備的研究では、LLMの隠れた活性化は、英語以外のプロンプトに反応してもしばしば英語に類似している。近年の結果は多言語のパフォーマンスが強く、他の言語での特定のタスクにおける英語のパフォーマンスを超えている。
論文参考訳（メタデータ） (2025-06-11T16:00:54Z)
Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [75.26829371493189]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文参考訳（メタデータ） (2025-06-03T09:01:08Z)
Visual Large Language Models Exhibit Human-Level Cognitive Flexibility in the Wisconsin Card Sorting Test [5.346677002840565]
本研究では、最先端の視覚大言語モデル(VLLM)の認知的柔軟性を評価する。以上の結果から,VLLMはテキストベースの入力によって,チェーン・オブ・シークレットの下で人間レベルのセットシフト能力を達成したり,超えたりすることが判明した。
論文参考訳（メタデータ） (2025-05-28T08:40:55Z)
Can the capability of Large Language Models be described by human ability? A Meta Study [10.516198272048488]
37の評価ベンチマークで80以上のモデルのパフォーマンスデータを収集しました。我々は, パラメータが100億未満の LLM のある種の機能について, 実際に記述できることを確認した。一部の能力は人間では相互に関連があると考えられているが、LLMではほとんど関係がないように見える。
論文参考訳（メタデータ） (2025-04-13T08:34:11Z)
How Deep is Love in LLMs' Hearts? Exploring Semantic Size in Human-like Cognition [75.11808682808065]
本研究では,大言語モデル (LLM) が意味的サイズを理解する上で類似した傾向を示すかどうかを検討する。以上の結果から,マルチモーダルトレーニングはLLMにとって人間的な理解を深める上で不可欠であることが示唆された。最後に,LLMが実世界のWebショッピングシナリオにおいて,より大きなセマンティックサイズを持つ注目の見出しに影響されているかを検討する。
論文参考訳（メタデータ） (2025-03-01T03:35:56Z)
An Overview of Large Language Models for Statisticians [109.38601458831545]
大規模言語モデル(LLM)は人工知能(AI)の変換ツールとして登場した。本稿では, 統計学者がLLMの開発に重要な貢献できる可能性について考察する。我々は不確実性定量化、解釈可能性、公正性、プライバシー、透かし、モデル適応といった問題に焦点を当てる。
論文参考訳（メタデータ） (2025-02-25T03:40:36Z)
Judgment of Learning: A Human Ability Beyond Generative Artificial Intelligence [0.0]
大規模言語モデル(LLM)は、様々な言語に基づくタスクにおいて、人間の認知を模倣する傾向にある。我々は、ChatGPTに基づくLLMが人間の学習判断(JOL)と一致しているかどうかを評価するために、クロスエージェント予測モデルを導入する。実験の結果,人間のJOLは実際のメモリ性能を確実に予測するが,いずれのLLMも同等の予測精度は示さなかった。
論文参考訳（メタデータ） (2024-10-17T09:42:30Z)
Neuron-based Personality Trait Induction in Large Language Models [115.08894603023712]
大規模言語モデル (LLM) は、様々な性格特性をシミュレートする能力が増している。 LLMにおけるパーソナリティ特性誘導のためのニューロンに基づくアプローチを提案する。
論文参考訳（メタデータ） (2024-10-16T07:47:45Z)
CogLM: Tracking Cognitive Development of Large Language Models [20.138831477848615]
我々は、Piaget's Theory of Cognitive Developmentに基づくベンチマークCogLMを構築した。 CogLMは、20人以上の専門家によって作られた10の認知能力にまたがる1220の質問で構成されている。 20歳児に匹敵する高度なLPM(GPT-4)にヒトのような認知能力が出現していることが判明した。
論文参考訳（メタデータ） (2024-08-17T09:49:40Z)
From Pre-training Corpora to Large Language Models: What Factors Influence LLM Performance in Causal Discovery Tasks? [51.42906577386907]
本研究では,因果発見タスクにおけるLarge Language Models(LLM)の性能に影響を与える要因について検討する。因果関係の頻度が高いことは、より良いモデル性能と相関し、トレーニング中に因果関係の情報に広範囲に暴露することで、因果関係の発見能力を高めることを示唆している。
論文参考訳（メタデータ） (2024-07-29T01:45:05Z)
Can Language Models Recognize Convincing Arguments? [12.458437450959416]
大規模言語モデル(LLM)は、説得力のある物語を創造し広める可能性について懸念を提起している。本研究は、説得力のある議論を検知し、その説得力に関する洞察を得るための性能について研究する。
論文参考訳（メタデータ） (2024-03-31T17:38:33Z)
Comparing Rationality Between Large Language Models and Humans: Insights and Open Questions [6.201550639431176]
本稿では,大規模言語モデル(LLM)の急成長に焦点をあてる。我々は,LLMの合理性と意思決定能力の増強において,人間フィードバックからの強化学習(RLHF)が果たす重要な役割を強調した。
論文参考訳（メタデータ） (2024-03-14T18:36:04Z)
Discovery of the Hidden World with Large Language Models [95.58823685009727]
本稿では,大きな言語モデル(LLM)を導入してギャップを埋めるCausal representatiOn AssistanT(COAT)を提案する。 LLMは世界中の大規模な観測に基づいて訓練されており、構造化されていないデータから重要な情報を抽出する優れた能力を示している。 COATはまた、特定変数間の因果関係を見つけるためにCDを採用し、提案された要因を反復的に洗練するためにLSMにフィードバックを提供する。
論文参考訳（メタデータ） (2024-02-06T12:18:54Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
Unveiling A Core Linguistic Region in Large Language Models [49.860260050718516]
本稿では,脳局在化をプロトタイプとして用いた類似研究を行う。我々は、言語能力に対応する大規模言語モデルにおいて、中核領域を発見した。我々は,言語能力の向上が必ずしもモデルの知識レベルの向上に伴わないことを観察する。
論文参考訳（メタデータ） (2023-10-23T13:31:32Z)
Emotional Intelligence of Large Language Models [9.834823298632374]
大規模言語モデル(LLM)は多くの分野において顕著な能力を示している。しかし、現実世界の応用にとって重要な人間の感情や価値観との整合性は、体系的に評価されていない。そこで我々は,感情認識,解釈,理解を含むLLMの感情知能(EI)を評価した。
論文参考訳（メタデータ） (2023-07-18T07:49:38Z)
Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文参考訳（メタデータ） (2023-05-24T06:14:31Z)
Human Behavioral Benchmarking: Numeric Magnitude Comparison Effects in Large Language Models [4.412336603162406]
大規模言語モデル(LLM)は、テキストで広まる数値を差分表現しない。本研究では,LLMが行動レンズからどれだけの数の数値を捉えているかを検討する。
論文参考訳（メタデータ） (2023-05-18T07:50:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。