Fugu-MT 論文翻訳(概要): From Human-Level AI Tales to AI Leveling Human Scales

論文の概要: From Human-Level AI Tales to AI Leveling Human Scales

arxiv url: http://arxiv.org/abs/2602.18911v1
Date: Sat, 21 Feb 2026 17:27:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.391151
Title: From Human-Level AI Tales to AI Leveling Human Scales
Title（参考訳）: 人間レベルのAI物語からAIレベルのヒューマンスケールへ
Authors: Peter Romero, Fernando Martínez-Plumed, Zachary R. Tyler, Matthieu Téhénan, Sipeng Chen, Álvaro David Gómez Antón, Luning Sun, Manuel Cebrian, Lexin Zhou, Yael Moros Daval, Daniel Romero-Alvarado, Félix Martí Pérez, Kevin Wei, José Hernández-Orallo,
Abstract要約: 我々は、各レベルが世界全体の成功の確率を表すべき様々な能力のための、一連のマルチレベル尺度の上に構築する。公開された人体テストデータをコンパイルすることで、各能力のスケールを調整します。グループスライシングとポストストラトフィケーションを用いて,異なるマッピングの品質を評価する。
参考スコア（独自算出の注目度）: 36.62583289981655
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Comparing AI models to "human level" is often misleading when benchmark scores are incommensurate or human baselines are drawn from a narrow population. To address this, we propose a framework that calibrates items against the 'world population' and report performance on a common, human-anchored scale. Concretely, we build on a set of multi-level scales for different capabilities where each level should represent a probability of success of the whole world population on a logarithmic scale with a base $B$. We calibrate each scale for each capability (reasoning, comprehension, knowledge, volume, etc.) by compiling publicly released human test data spanning education and reasoning benchmarks (PISA, TIMSS, ICAR, UKBioBank, and ReliabilityBench). The base $B$ is estimated by extrapolating between samples with two demographic profiles using LLMs, with the hypothesis that they condense rich information about human populations. We evaluate the quality of different mappings using group slicing and post-stratification. The new techniques allow for the recalibration and standardization of scales relative to the whole-world population.
Abstract（参考訳）: AIモデルと「人間レベル」を比較することは、ベンチマークスコアが不一般的な場合や、狭い人口からヒトのベースラインを引き出す場合、しばしば誤解を招く。そこで我々は,「世界人口」に対してアイテムを校正する枠組みを提案し,共通の人文の尺度で性能を報告する。具体的には、各レベルがB$の対数スケールで世界全体の成功の確率を表すような、異なる能力のための多段階尺度のセットを構築します。我々は、教育と推論ベンチマーク(PISA、TIMSS、ICAR、UKBioBank、ReliabilityBench)にまたがる公開試験データをコンパイルすることで、各能力(推論、理解、知識、ボリュームなど)の尺度を調整します。ベースとなる$B$は、LLMを用いて2つの人口統計プロファイルを持つサンプル間の外挿によって推定される。グループスライシングとポストストラトフィケーションを用いて,異なるマッピングの品質を評価する。この新しい技術は、世界全体の人口に対するスケールの再校正と標準化を可能にする。

関連論文リスト

Computational Turing Test Reveals Systematic Differences Between Human and AI Language [0.0]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートするために社会科学でますます使われている。既存の検証努力は人的判断に基づく評価に大きく依存している。本稿では,LLMが人間の言語にどの程度近いかを評価するために,計算チューリングテストを提案する。
論文参考訳（メタデータ） (2025-11-06T08:56:37Z)
Relative Scaling Laws for LLMs [91.73497548097775]
スケーリング法則は、追加のデータ、パラメータ、計算によって言語モデルがどのように改善されるかを記述する。相対的なスケーリング法則を導入し、テスト分布間のパフォーマンスギャップをスケールで追跡する。これらの結果は、スケーリングは全体的なパフォーマンスを改善するが、普遍的等化器ではないことを示している。
論文参考訳（メタデータ） (2025-10-28T16:55:22Z)
WorldPM: Scaling Human Preference Modeling [130.23230492612214]
我々は、このスケーリングの可能性を強調するために、World Preference Modeling$ (WorldPM)を提案する。多様なユーザコミュニティをカバーする公開フォーラムから選好データを収集する。 1.5Bから72Bパラメータの範囲で15Mスケールのデータを用いて広範囲なトレーニングを行う。
論文参考訳（メタデータ） (2025-05-15T17:38:37Z)
Empirically evaluating commonsense intelligence in large language models with large-scale human judgments [4.212429064310439]
本稿では,人工知能における常識評価手法を提案する。モデルの判断と人口の対応を計測する。私たちのフレームワークは、異なる、しばしば互換性のない、知識の社会的備蓄を持つ人間の集合体にAIモデルを適用することの要求に寄与します。
論文参考訳（メタデータ） (2025-05-15T13:55:27Z)
Psychometric Alignment: Capturing Human Knowledge Distributions via Language Models [41.324679754114165]
言語モデル(LM)は、人口の振る舞いを正確に模倣することで意思決定を導くシナリオにおいて、人間のような反応をシミュレートするためにますます使われる。本研究では,人間の知識分布の程度を計測する指標である「心理学的アライメント」を導入する。人格に基づくプロンプトを用いることでアライメントが向上するが, LMとヒトの集団の間には重大な不一致が生じる。
論文参考訳（メタデータ） (2024-07-22T14:02:59Z)
ChatGPT Rates Natural Language Explanation Quality Like Humans: But on Which Scales? [7.307538454513983]
本研究では,ChatGPTと人的評価のアライメントについて,複数の尺度で検討する。 3つのNLEデータセットから300のデータインスタンスをサンプリングし、900人のアノテーションを収集します。以上の結果から,ChatGPTはより粗いスケールで人間とよく一致していることがわかった。
論文参考訳（メタデータ） (2024-03-26T04:07:08Z)
HumanBench: Towards General Human-centric Perception with Projector Assisted Pretraining [75.1086193340286]
汎用的な人中心下流作業のための一般的な事前訓練モデルを持つことが望ましい。本研究では,既存のデータセットをベースとしたtextbfHumanBench を提案する。我々のPATHは、17の下流データセットと他の2つのデータセットの中間結果に対して、最先端の新たな結果を達成する。
論文参考訳（メタデータ） (2023-03-10T02:57:07Z)
Not All Errors are Equal: Learning Text Generation Metrics using Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。 SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文参考訳（メタデータ） (2022-10-10T22:30:26Z)
Estimating Structural Disparities for Face Models [54.062512989859265]
機械学習では、異なるサブ人口間でのモデルの性能や結果の差を測定することで、しばしば異質度の測定が定義される。本研究では、人間の顔に訓練されたコンピュータビジョンモデルや、顔属性予測や影響推定などのタスクについて、そのような分析を行う。
論文参考訳（メタデータ） (2022-04-13T05:30:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。