論文の概要: The Arrival of AGI? When Expert Personas Exceed Expert Benchmarks
- arxiv url: http://arxiv.org/abs/2603.20225v1
- Date: Wed, 04 Mar 2026 15:44:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.912064
- Title: The Arrival of AGI? When Expert Personas Exceed Expert Benchmarks
- Title(参考訳): AGIの在り方 : 専門家が専門家のベンチマークを抜いたとき
- Authors: Drake Mullens, Stella Shen,
- Abstract要約: Wharton Generative AI Labは、専門家のペルソナは言語モデルのパフォーマンスを改善していないと報告している。
このヌル発見は構造的に予測可能であることを示す。
我々は,ベースラインパターンマッチングを防止するため,GPQAダイアモンドの難問を選択した。
モデル分岐の法医学的な検証により、最も難しいGPQA項目の半数が化学的または論理的に防御不能な答えを含んでいることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Do expert personas improve language model performance? The Wharton Generative AI Lab reports that they do not, broadcasting to millions via social media the recommendation that practitioners abandon a technique recommended by Anthropic, Google, and OpenAI. We demonstrate that this null finding was structurally predictable. Five core mechanisms precluded detection before data collection began: baseline contamination elevating the starting point to near-ceiling, system prompt hierarchy subordinating experimental manipulation, impossible expert specifications collapsing to generic competence, format constraints suppressing reasoning processes, and provider exclusion limiting generalizability. Controlled trials correcting these limitations reveal what the original design obscured. To test this, we selected the GPQA Diamond hardest questions to prevent baseline pattern matching, forcing reliance on genuine expert reasoning. On items with valid key answers, expert personas achieve ceiling accuracy. They eliminated all baseline errors through confidence amplification. Furthermore, forensic examination of model divergence identified that half of the hardest GPQA items contain chemically or logically indefensible answers. The model's CoT revealed reasoning away from impossible answers, yielding penalization for accurate chemistry. These findings recontextualize the original null results. Methodologically sound persona research faces measurement constraints imposed by benchmark validity limitations. Answering the persona question requires evaluation infrastructure the field does not yet possess.
- Abstract(参考訳): 専門家のペルソナは言語モデルのパフォーマンスを改善するか?
Wharton Generative AI Labは、実践者がArthropic、Google、OpenAIが推奨するテクニックを捨てることを推奨して、ソーシャルメディアを通じて数百万にブロードキャストしていないと報告している。
このヌル発見は構造的に予測可能であることを示す。
データ収集に先立って検出される5つの中核メカニズムは、開始点をニアシーリングに高めるベースライン汚染、実験的な操作を代行するシステムプロンプト階層、ジェネリック・コンピテンスに崩壊する不可能な専門家仕様、推論過程を抑えるフォーマット制約、一般化可能性を制限するプロバイダ排除である。
これらの制限を補正する制御された試行は、オリジナルの設計が何を隠したかを明らかにする。
これをテストするため,GPQAダイアモンドが最も難しい質問を選択し,基準パターンマッチングを防止し,真の専門家による推論に頼らざるを得なかった。
有効な重要な回答を持つ項目では、専門家のペルソナが天井の精度を達成します。
彼らは信頼度を増幅することですべてのベースラインエラーを排除した。
さらに, モデル偏差の法医学的検討により, 最も硬度の高いGPQA項目の半数が化学的に, 論理的にも無防備な回答を含んでいることが明らかとなった。
モデルのCoTは、不可能な答えから引き離された理由を明らかにし、正確な化学のペナル化をもたらした。
これらの結果は、元のnull結果を再テクスチャ化する。
方法論的に健全なペルソナ研究は、ベンチマーク妥当性の制限によって課される測定制約に直面している。
ペルソナの質問に答えるには、まだフィールドが持っていない評価インフラストラクチャが必要です。
関連論文リスト
- AEGIS: From Clues to Verdicts -- Graph-Guided Deep Vulnerability Reasoning via Dialectics and Meta-Auditing [9.271196825503417]
大きな言語モデル(LLM)は、脆弱性検出にますます採用されているが、その推論は基本的には正しくない。
AEGISは、未解決の投機から、クローズドな事実ベース上の法医学的検証へ、検出をシフトする新しいマルチエージェントフレームワークである。
これは、主要なベースラインと比較して偽陽性率を最大54.40%削減し、1サンプルあたりの平均コストはタスク固有のトレーニングなしで0.09ドルである。
論文 参考訳(メタデータ) (2026-03-21T04:12:04Z) - Self-Refining Vision Language Model for Robotic Failure Detection and Reasoning [16.274791437311602]
本稿では,ロボット故障検出と推論のための適応ラウンドベースマルチタスクmOdelについて紹介する。
マルチタスク・セルフリファインメント・プロセスとして検出と推論を定式化する。
ARMORは,従来の手法を最大30%の故障検出率で改善し,最先端の性能を実現していることを示す。
論文 参考訳(メタデータ) (2026-02-12T20:55:36Z) - To Search or Not to Search: Aligning the Decision Boundary of Deep Search Agents via Causal Intervention [61.82680155643223]
我々は,不整合決定境界の根本原因を同定し,蓄積した情報が回答するのに十分であるかどうかをしきい値に判定する。
これにより、過剰探索(十分な知識にもかかわらず冗長探索)と過度探索(早期終了)が誤った答えをもたらす。
まず,境界誤差を識別する因果的介入に基づく診断手法を提案する。
第2に,Deep Search Agent(DAS)のための決定境界アライメントを開発する。
我々のDAS法はこれらの境界を効果的に校正し、オーバーサーチとアンダーサーチの両方を緩和し、精度と効率を大幅に向上させる。
論文 参考訳(メタデータ) (2026-02-03T09:29:06Z) - BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers? [21.78901120638025]
製造指向の紙生成エージェントがマルチモデルLCMレビューシステムを欺くことができるかどうかを考察する。
我々のジェネレータは、実際の実験を必要としないプレゼンテーション操作戦略を採用している。
健全な集約数学にもかかわらず、整合性検査は体系的に失敗する。
論文 参考訳(メタデータ) (2025-10-20T18:37:11Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Unsupervised Hallucination Detection by Inspecting Reasoning Processes [53.15199932086543]
非教師付き幻覚検出は、ラベル付きデータに頼ることなく、大規模言語モデル(LLM)が生成する幻覚コンテンツを特定することを目的としている。
本稿では,非教師なし幻覚検出フレームワークIRISを提案する。
我々の手法は完全に教師なし、計算コストが低く、訓練データが少ない場合でもうまく機能し、リアルタイム検出に適しています。
論文 参考訳(メタデータ) (2025-09-12T06:58:17Z) - UQ: Assessing Language Models on Unsolved Questions [149.46593270027697]
当社では,Stack Exchangeから提供された500の難解で多様な質問を対象としたテストベッドであるUQを紹介します。
未解決の質問は、人間が答えを求めるときにしばしば難しく自然に発生する。
上位モデルは15%の質問でUQ検証をパスし、予備的な人間の検証はすでに正しい答えを同定している。
論文 参考訳(メタデータ) (2025-08-25T01:07:59Z) - Unsupervised Anomaly Detection with Rejection [19.136286864839846]
異常検知器は直観を用いて決定境界を学習するが、実際に検証することは困難である。
これに対抗する方法の1つは、検出器が高い不確実性のある例を拒否できるようにすることである。
これは、決定境界までの距離を捉え、低信頼の予測を拒否するために拒絶しきい値を設定する信頼度基準を用いる必要がある。
論文 参考訳(メタデータ) (2023-05-22T16:22:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。