論文の概要: From Checklists to Clusters: A Homeostatic Account of AGI Evaluation
- arxiv url: http://arxiv.org/abs/2510.15236v1
- Date: Fri, 17 Oct 2025 01:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.435262
- Title: From Checklists to Clusters: A Homeostatic Account of AGI Evaluation
- Title(参考訳): チェックリストからクラスタへ:AGI評価のホメオスタティックな説明
- Authors: Brett Reynolds,
- Abstract要約: AGI評価では、マルチドメイン機能プロファイルを報告しているが、通常は対称重みを割り当て、スナップショットスコアに依存する。
一般知性は、ホメオスタティックな資産クラスタとして理解されていると私は主張する。
本稿では,CHC由来の重みを透過感度分析でインポートする中央値優先スコアと,プロファイルの持続性,耐久性学習,エラー訂正を分離するクラスタ安定性指標ファミリの2つを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contemporary AGI evaluations report multidomain capability profiles, yet they typically assign symmetric weights and rely on snapshot scores. This creates two problems: (i) equal weighting treats all domains as equally important when human intelligence research suggests otherwise, and (ii) snapshot testing can't distinguish durable capabilities from brittle performances that collapse under delay or stress. I argue that general intelligence -- in humans and potentially in machines -- is better understood as a homeostatic property cluster: a set of abilities plus the mechanisms that keep those abilities co-present under perturbation. On this view, AGI evaluation should weight domains by their causal centrality (their contribution to cluster stability) and require evidence of persistence across sessions. I propose two battery-compatible extensions: a centrality-prior score that imports CHC-derived weights with transparent sensitivity analysis, and a Cluster Stability Index family that separates profile persistence, durable learning, and error correction. These additions preserve multidomain breadth while reducing brittleness and gaming. I close with testable predictions and black-box protocols labs can adopt without architectural access.
- Abstract(参考訳): 現代のAGI評価では、マルチドメイン機能プロファイルが報告されているが、通常は対称重みを割り当て、スナップショットスコアに依存する。
これは2つの問題を引き起こす。
一 同等の重み付けは、人間の知能研究が示唆する場合、すべての領域を等しく重要視し、
(ii) スナップショットテストでは、遅延やストレスの下で崩壊する不安定なパフォーマンスと耐久性を区別できない。
一般知能は、人間でも機械でも、ホメオスタティック・プロパティー・クラスタとしてよりよく理解されている、と私は主張する。
この観点から、AGI評価は、その因果集中度(クラスタ安定性への貢献)によってドメインを重み付けし、セッション間の持続性の証拠を必要とする。
本稿では,CHC由来の重みを透過感度分析でインポートする中央値優先スコアと,プロファイルの持続性,耐久性学習,エラー訂正を分離するクラスタ安定性指標ファミリの2つを提案する。
これらの追加により、マルチドメイン幅が保存され、脆さとゲーム性が低減される。
私は、テスト可能な予測とブラックボックスプロトコルラボがアーキテクチャアクセスなしで採用できるものに近づきます。
関連論文リスト
- Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Cognitive Load Limits in Large Language Models: Benchmarking Multi-Hop Reasoning [0.0]
大規模言語モデル(LLM)は孤立したタスクにおいて優れるが、認知的負荷下での推論はいまだに理解されていない。
本稿では,タスク不適切な情報(コンテキスト飽和)とタスク切替による干渉が,性能を低下させる重要なメカニズムであることを示唆する,計算認知負荷の形式的理論を導入する。
論文 参考訳(メタデータ) (2025-09-23T19:36:56Z) - Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - Migration as a Probe: A Generalizable Benchmark Framework for Specialist vs. Generalist Machine-Learned Force Fields in Doped Materials [1.572216094651749]
我々は、(スクラッチから)ベスポークと微調整された基礎モデルとを対比するベンチマークフレームワークを提案する。
平衡,運動学(原子移動),機械的(層間スライディング)タスクの精度を評価する。
この研究はMLFF開発のための実践的なガイドを提供し、効率的な診断としてマイグレーションベースのプローブを強調している。
論文 参考訳(メタデータ) (2025-08-27T13:24:41Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Robust Text Classification: Analyzing Prototype-Based Networks [12.247144383314177]
PBN(Prototype-Based Networks)は、コンピュータビジョンタスクのノイズに対して堅牢であることが示されている。
本研究では, PBN がテキスト分類タスクに変換するロバスト性について, ターゲットとスタティックの両方の攻撃条件下で検討する。
PBNsの解釈性はPBNsの強靭性の性質を理解するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2023-11-11T19:34:06Z) - RobustBench: a standardized adversarial robustness benchmark [84.50044645539305]
ロバストネスのベンチマークにおける主な課題は、その評価がしばしばエラーを起こし、ロバストネス過大評価につながることである。
我々は,白箱攻撃と黒箱攻撃のアンサンブルであるAutoAttackを用いて,敵対的ロバスト性を評価する。
分散シフト,キャリブレーション,アウト・オブ・ディストリビューション検出,フェアネス,プライバシリーク,スムースネス,転送性に対するロバスト性の影響を解析した。
論文 参考訳(メタデータ) (2020-10-19T17:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。