論文の概要: On the Measure of a Model: From Intelligence to Generality
- arxiv url: http://arxiv.org/abs/2511.11773v1
- Date: Fri, 14 Nov 2025 09:46:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.301439
- Title: On the Measure of a Model: From Intelligence to Generality
- Title(参考訳): モデルの測定について:知性から一般性へ
- Authors: Ruchira Dhar, Ninell Oldenburg, Anders Soegaard,
- Abstract要約: ARC、Ravenにインスパイアされたテスト、Blackbird Taskなどのベンチマークは、大規模言語モデル(LLM)のインテリジェンスを評価するために広く使われている。
しかし、インテリジェンスの概念は、安定した定義が欠如しており、質問応答や要約、コーディングといった実践的なタスクのパフォーマンスを予測できない。
我々の見解では、評価は抽象的な知性の概念よりも一般性に根ざすべきである。
- 参考スコア(独自算出の注目度): 0.7561750463371523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarks such as ARC, Raven-inspired tests, and the Blackbird Task are widely used to evaluate the intelligence of large language models (LLMs). Yet, the concept of intelligence remains elusive- lacking a stable definition and failing to predict performance on practical tasks such as question answering, summarization, or coding. Optimizing for such benchmarks risks misaligning evaluation with real-world utility. Our perspective is that evaluation should be grounded in generality rather than abstract notions of intelligence. We identify three assumptions that often underpin intelligence-focused evaluation: generality, stability, and realism. Through conceptual and formal analysis, we show that only generality withstands conceptual and empirical scrutiny. Intelligence is not what enables generality; generality is best understood as a multitask learning problem that directly links evaluation to measurable performance breadth and reliability. This perspective reframes how progress in AI should be assessed and proposes generality as a more stable foundation for evaluating capability across diverse and evolving tasks.
- Abstract(参考訳): ARC、Ravenにインスパイアされたテスト、Blackbird Taskなどのベンチマークは、大規模言語モデル(LLM)のインテリジェンスを評価するために広く使われている。
しかし、インテリジェンスの概念は、安定した定義が欠如しており、質問応答や要約、コーディングといった実践的なタスクのパフォーマンスを予測できない。
このようなベンチマークの最適化は、現実のユーティリティによる評価を誤ったものにするリスクがある。
我々の見解では、評価は抽象的な知性の概念よりも一般性に根ざすべきである。
インテリジェンスに焦点を絞った評価の基盤となる3つの仮定(一般性、安定性、リアリズム)を特定する。
概念的および形式的分析を通して、一般性のみが概念的および実証的な精査に耐えていることが示される。
汎用性は、評価と測定可能なパフォーマンスの幅と信頼性を直接リンクするマルチタスク学習問題として理解されている。
この視点は、AIの進歩がどのように評価されるべきかを再定義し、多様で進化するタスクにまたがる能力を評価するためのより安定した基盤として、汎用性を提案する。
関連論文リスト
- The Artificial Intelligence Cognitive Examination: A Survey on the Evolution of Multimodal Evaluation from Recognition to Reasoning [0.0]
この分野は、単純な認識タスクから複雑な推論ベンチマークに移行する、パラダイムシフトが進行中である、と我々は主張する。
ImageNet時代の基礎的な"知識テスト"から、"応用ロジックと理解"テストまでの道程をグラフ化します。
我々は、抽象的、創造的、社会的知性を評価するために、未知の領域を探索する。
論文 参考訳(メタデータ) (2025-10-05T10:41:22Z) - AGITB: A Signal-Level Benchmark for Evaluating Artificial General Intelligence [0.0]
Artificial General Intelligence Testbed (AGITB)は14の初等試験からなる新しいベンチマークスイートを導入した。
AGITBは、事前訓練することなく、段階的に、時間的シーケンスで次の入力を予測する能力に関するモデルを評価する。
ヒトの皮質は全てのテストを満たすが、現在のAIシステムは完全なAGITB基準を満たしていない。
論文 参考訳(メタデータ) (2025-04-06T10:01:15Z) - General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。
私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。
私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文 参考訳(メタデータ) (2025-03-09T01:13:56Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Integration of cognitive tasks into artificial general intelligence test
for large models [54.72053150920186]
我々は、認知科学にインスパイアされた人工知能(AGI)テストの包括的な枠組みを提唱する。
認知科学に触発されたAGIテストは、結晶化インテリジェンス、流体インテリジェンス、社会インテリジェンス、エンボディドインテリジェンスを含む、すべてのインテリジェンスファセットを含んでいる。
論文 参考訳(メタデータ) (2024-02-04T15:50:42Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Beyond Interpretable Benchmarks: Contextual Learning through Cognitive
and Multimodal Perception [0.0]
この研究は、チューリングテストがコンピュータシステムを人為的に形作る試みであると誤解されていることを主張する。
通訳性に欠けるにもかかわらず、汎用知能の基盤として暗黙の学習を強調している。
論文 参考訳(メタデータ) (2022-12-04T08:30:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。