論文の概要: Do Machines Fail Like Humans? A Human-Centred Out-of-Distribution Spectrum for Mapping Error Alignment
- arxiv url: http://arxiv.org/abs/2603.07462v1
- Date: Sun, 08 Mar 2026 04:51:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.608779
- Title: Do Machines Fail Like Humans? A Human-Centred Out-of-Distribution Spectrum for Mapping Error Alignment
- Title(参考訳): 機械は人間に似ていないか? エラーアライメントをマッピングするための人間中心のアウトオブディストリビューションスペクトル
- Authors: Binxia Xu, Xiaoliang Luo, Luke Dickens, Robert M. Mok,
- Abstract要約: 我々は,人間の知覚障害のスペクトルとしてOODの度合いを再定義する,人間中心の枠組みを提案する。
我々はこの枠組みをオブジェクト認識に適用し、ディープラーニングアーキテクチャ全体にわたるユニークな、状況に依存したモデル-ヒューマンアライメントのランキングとプロファイルを明らかにする。
- 参考スコア(独自算出の注目度): 1.974820485832244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Determining whether AI systems process information similarly to humans is central to cognitive science and trustworthy AI. While modern AI models match human accuracy on standard tasks, such parity does not guarantee that their underlying decision-making strategies are aligned with human information processing. Assessing performance using i) error alignment metrics to compare how humans and models fail, and ii) using distorted, or otherwise more challenging, stimuli, provides a viable pathway toward a finer characterization of model-human alignment. However, existing out-of-distribution (OOD) analyses for challenging stimuli are limited due to methodological choices: they define OOD shift relative to model training data or use arbitrary distortion-specific parameters with little correspondence to human perception, hindering principled comparisons. We propose a human-centred framework that redefines the degree of OOD as a spectrum of human perceptual difficulty. By quantifying how much a collection of stimuli deviates from an undistorted reference set based on human accuracy, we construct an OOD spectrum and identify four distinct regimes of perceptual challenge. This approach enables principled model-human comparisons at calibrated difficulty levels. We apply this framework to object recognition and reveal unique, regime-dependent model-human alignment rankings and profiles across deep learning architectures. Vision-language models are the most consistently human aligned across near- and far-OOD conditions, but CNNs are more aligned than ViTs for near-OOD and ViTs are more aligned than CNNs for far-OOD conditions. Our work demonstrates the critical importance of accounting for cross-condition differences such as perceptual difficulty for a principled assessment of model-human alignment.
- Abstract(参考訳): AIシステムが人間と同じような情報を処理しているかどうかを決定することは、認知科学と信頼できるAIの中心である。
現代のAIモデルは標準的なタスクで人間の精度と一致するが、そのような同等性は、その根底にある意思決定戦略が人間の情報処理と一致していることを保証するものではない。
パフォーマンスの評価
一 人間とモデルがどのように失敗するかを比較するためのエラーアライメント指標
二 歪んだ、その他のより困難な刺激を使用することにより、モデルヒトのアライメントのより微細な特徴化に向けて実行可能な経路を提供すること。
しかし、既存のOOD分析は、モデルトレーニングデータに対するOODシフトを定義したり、人間の知覚にほとんど対応しない任意の歪み特異的パラメータを使用したり、原則的比較を妨げるなど、方法論的な選択によって制限されている。
我々は,人間の知覚障害のスペクトルとしてOODの度合いを再定義する,人間中心の枠組みを提案する。
人間の精度に基づいて, 刺激の集合が, 歪まない参照集合からどれだけ逸脱するかを定量化することにより, OODスペクトルを構築し, 知覚課題の4つの異なる状態を特定する。
このアプローチは、キャリブレーションされた難易度におけるモデルと人間の比較を可能にする。
我々はこの枠組みをオブジェクト認識に適用し、ディープラーニングアーキテクチャ全体にわたるユニークな、状況に依存したモデル-ヒューマンアライメントのランキングとプロファイルを明らかにする。
視覚言語モデルは、近OOD条件と遠OOD条件にまたがる最も一貫性のある人間モデルであるが、CNNは近OOD条件ではViTよりも、遠OOD条件ではViTの方が、遠OOD条件ではCNNよりも一致している。
本研究は, モデル・ヒューマンアライメントの原理的評価において, 知覚困難などの条件間差異を考慮に入れることの重要性を実証するものである。
関連論文リスト
- LVLM-Aided Alignment of Task-Specific Vision Models [49.96265491629163]
タスク固有の視覚モデルは、高い領域において不可欠である。
本稿では,タスク固有の視覚モデルと人間のドメイン知識を協調する,新しい,効率的な手法を提案する。
提案手法は, モデル動作と人間の仕様との整合性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-12-26T11:11:25Z) - Accuracy Does Not Guarantee Human-Likeness in Monocular Depth Estimators [2.466518228012258]
ディープニューラルネットワーク(DNN)は、物理ベースのベンチマークで超人的精度を達成した。
単眼深度推定は、自律運転やロボット工学のような現実世界のアプリケーションにとって基本的な能力である。
物体認識の研究は、モデル精度と人間のような振る舞いの間の複雑なトレードオフを明らかにしている。
論文 参考訳(メタデータ) (2025-12-09T01:42:00Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Empirically evaluating commonsense intelligence in large language models with large-scale human judgments [4.212429064310439]
本稿では,人工知能における常識評価手法を提案する。
モデルの判断と人口の対応を計測する。
私たちのフレームワークは、異なる、しばしば互換性のない、知識の社会的備蓄を持つ人間の集合体にAIモデルを適用することの要求に寄与します。
論文 参考訳(メタデータ) (2025-05-15T13:55:27Z) - Human and AI Perceptual Differences in Image Classification Errors [13.045020949359621]
本研究はまず,2つの情報源からの誤りの統計的分布を分析し,課題難易度がこれらの分布に与える影響について検討する。
AIがトレーニングデータから優れたモデルを学び、全体的な精度で人間を上回ったとしても、これらのAIモデルは人間の知覚と有意で一貫した違いを持つ。
論文 参考訳(メタデータ) (2023-04-18T05:09:07Z) - Perceptual Attacks of No-Reference Image Quality Models with
Human-in-the-Loop [113.75573175709573]
NR-IQAモデルの知覚的堅牢性を調べるための最初の試みの1つを行う。
我々は,4つの完全参照IQAモデルの下で,知識駆動のNR-IQA法とデータ駆動のNR-IQA法を検証した。
4つのNR-IQAモデルは全て、提案した知覚的攻撃に対して脆弱であることがわかった。
論文 参考訳(メタデータ) (2022-10-03T13:47:16Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - Beyond accuracy: quantifying trial-by-trial behaviour of CNNs and humans
by measuring error consistency [10.028543085687803]
認知科学と行動神経科学における中心的な問題は、2つ以上の意思決定者(脳かアルゴリズムか)が同じ戦略を使用するかどうかを確認することである。
2つの意思決定システムが同一入力に対してシステム的にエラーを発生させるかどうかを定量化するための定量的解析であるトライアル・バイ・トライアル・エラー整合性を導入する。
論文 参考訳(メタデータ) (2020-06-30T12:47:17Z) - Joint Inference of States, Robot Knowledge, and Human (False-)Beliefs [90.20235972293801]
本稿では,人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)の認知能力が,ロボットとの相互作用にどのように影響するかを理解するために,対象状態,ロボット知識,人間(時間的)の認知能力の表現にグラフィカルモデルを採用することを提案する。
推論アルゴリズムは、複数のビューにまたがる全てのロボットから個別のpgを融合し、単一のビューから発生したエラーを克服するより効果的な推論能力を得る。
論文 参考訳(メタデータ) (2020-04-25T23:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。