論文の概要: AI, Metacognition, and the Verification Bottleneck: A Three-Wave Longitudinal Study of Human Problem-Solving
- arxiv url: http://arxiv.org/abs/2601.17055v1
- Date: Wed, 21 Jan 2026 15:49:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.102456
- Title: AI, Metacognition, and the Verification Bottleneck: A Three-Wave Longitudinal Study of Human Problem-Solving
- Title(参考訳): AI、メタ認知、検証ボトルネック:人間の問題解決に関する3波縦断的研究
- Authors: Matthias Huemmer, Franziska Durner, Theophile Shyiramunda, Michelle J. Cummings-Koether,
- Abstract要約: このパイロット研究は、AIが学術的な環境での6ヶ月にわたる問題解決にどのように影響するかを追跡した。
結果は、主にアーリーアドプター、学術関連集団に一般化される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This longitudinal pilot study tracked how generative AI reshapes problem-solving over six months across three waves in an academic setting. AI integration reached saturation by Wave 3, with daily use rising from 52.4% to 95.7% and ChatGPT adoption from 85.7% to 100%. A dominant hybrid workflow increased 2.7-fold, adopted by 39.1% of participants. The verification paradox emerged: participants relied most heavily on AI for difficult tasks (73.9%) yet showed declining verification confidence (68.1%) where performance was worst (47.8% accuracy on complex tasks). Objective performance declined systematically: 95.2% to 81.0% to 66.7% to 47.8% across problem difficulty, with belief-performance gaps widening to 34.6 percentage points. This indicates a fundamental shift where verification, not solution generation, became the bottleneck in human-AI problem-solving. The ACTIVE Framework synthesizes findings grounded in cognitive load theory: Awareness and task-AI alignment, Critical verification protocols, Transparent human-in-the-loop integration, Iterative skill development countering cognitive offloading, Verification confidence calibration, and Ethical evaluation. The authors provide implementation pathways for institutions and practitioners. Key limitations include sample homogeneity (academic cohort only, convenience sampling) limiting generalizability to corporate, clinical, or regulated professional contexts; self-report bias in confidence measures (32.2 percentage point divergence from objective performance); lack of control conditions; restriction to mathematical/analytical problems; and insufficient timeframe to assess long-term skill trajectories. Results generalize primarily to early-adopter, academically affiliated populations. Causal validation requires randomized controlled trials.
- Abstract(参考訳): この縦断試験は、AIが3つの波にまたがって6ヶ月にわたって問題を解決したことを、学術的な環境で追跡した。
AI統合はWave 3によって飽和に達し、日々の利用は52.4%から95.7%に増加し、ChatGPTの採用は85.7%から100%に増加した。
支配的なハイブリッドワークフローは2.7倍に増加し、39.1%の参加者が採用した。
参加者は難しいタスク(73.9%)のためにAIに大きく依存していたが、パフォーマンスが最悪(47.8%の精度)で信頼性が低下(68.1%)した。
95.2%から81.0%から66.7%から47.8%まで体系的に性能が低下し、信念と性能のギャップは34.6%にまで拡大した。
これは、検証がソリューション生成ではなく、人間とAIの問題解決のボトルネックとなった、根本的な変化を示している。
ACTIVE Frameworkは、認知負荷理論に基づく知見を合成する: 認識性とタスク-AIアライメント、クリティカルな検証プロトコル、透明な人間とループの統合、認知的オフロードに対抗する反復的スキル開発、検証信頼度校正、倫理的評価。
著者らは、制度や実践者に対して実施経路を提供する。
主な制限は、サンプル均質性(アカデミック・コホートのみ、利便性サンプリング)による、企業、臨床、または規制された専門的文脈への一般化可能性の制限、信頼度測定における自己報告バイアス(32.2ポイントは客観的なパフォーマンスから逸脱している)、制御条件の欠如、数学的・分析的な問題への制限、長期的な技能軌跡を評価するための時間枠不足などである。
結果は、主にアーリーアドプター、学術関連集団に一般化される。
因果検証にはランダム化制御試験が必要である。
関連論文リスト
- Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - On the Influence of Artificial Intelligence on Human Problem-Solving: Empirical Insights for the Third Wave in a Multinational Longitudinal Pilot Study [0.0]
本稿では,問題解決における人間とAIの連携の進化パラダイムについて考察する。
以上の結果から,ハイブリッド型問題解決文化の確立が示唆された。
この研究は、教育と技術的介入は検証の足場を優先しなければならないと結論付けている。
論文 参考訳(メタデータ) (2025-11-13T10:20:07Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Bias in the Loop: How Humans Evaluate AI-Generated Suggestions [9.578382668831988]
人間とAIのコラボレーションは、医療診断からコンテンツモデレーションに至るまで、業界全体の意思決定を促進する。
これらのコラボレーションが成功するか失敗するかを決定する心理的要因についてはほとんど分かっていません。
我々は,2,784人の参加者によるランダム化実験を行い,AIによる提案に対するタスクデザインと個人特性がどのように人間の反応を形作るかを検討した。
論文 参考訳(メタデータ) (2025-09-10T11:43:29Z) - A Confidence-Diversity Framework for Calibrating AI Judgement in Accessible Qualitative Coding Tasks [0.0]
信頼性の多様性の校正は、アクセス可能なコーディングタスクの品質評価フレームワークである。
8つの最先端のLCMから5,680のコーディング決定を分析すると、自信はモデル間の合意を密接に追跡する。
論文 参考訳(メタデータ) (2025-08-04T03:47:10Z) - Person Recognition at Altitude and Range: Fusion of Face, Body Shape and Gait [70.00430652562012]
FarSightは、顔認識のためのエンドツーエンドシステムで、顔、歩行、体形を横断する生体計測の手がかりを統合する。
FarSightは、4つのコアモジュールにまたがる新しいアルゴリズムを組み込んでいる。
論文 参考訳(メタデータ) (2025-05-07T17:58:25Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Generative AI for Requirements Engineering: A Systematic Literature Review [1.6986294649170766]
生成事前学習型トランスモデルが現在の応用を支配している。
産業採用は未熟であり、90%以上の研究が初期開発に対応している。
GenAIベースのREの変革的な可能性にもかかわらず、いくつかの障壁は実践的な採用を妨げる。
論文 参考訳(メタデータ) (2024-09-10T02:44:39Z) - Biomedical image analysis competitions: The state of current
participation practice [143.52578599912326]
我々は,バイオメディカルイメージング分析の特定の分野におけるアルゴリズム開発の現状を明らかにするための調査を設計した。
この調査は、参加者の専門知識と作業環境、選択した戦略、およびアルゴリズムの特徴をカバーした。
全体として、すべてのソリューションの94%はディープラーニングベースのものだ。そのうち84%は標準アーキテクチャに基づいていた。
論文 参考訳(メタデータ) (2022-12-16T16:44:46Z) - Detecting cognitive decline using speech only: The ADReSSo Challenge [10.497861245133086]
ADReSSo Challengeは、社会的および医療関連性の3つの難しい自動予測問題をターゲットにしている。
本稿では,これらの予測タスクを詳述し,使用するデータセットを記述し,各タスク用に開発したベースライン分類と回帰モデルの結果を報告する。
論文 参考訳(メタデータ) (2021-03-23T01:09:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。