論文の概要: FindTheFlaws: Annotated Errors for Detecting Flawed Reasoning and Scalable Oversight Research
- arxiv url: http://arxiv.org/abs/2503.22989v1
- Date: Sat, 29 Mar 2025 06:38:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:39:19.101193
- Title: FindTheFlaws: Annotated Errors for Detecting Flawed Reasoning and Scalable Oversight Research
- Title(参考訳): FindTheFlaws: 欠陥のある推論とスケーラブルな監視研究を検知するためのアノテーション付きエラー
- Authors: Gabriel Recchia, Chatrik Singh Mangat, Issac Li, Gayatri Krishnakumar,
- Abstract要約: AIの監督を拡大するアプローチには、議論、批判、証明者検証ゲームが含まれる。
FindTheFlawsは医学、数学、科学、コーディング、ロジバン語にまたがる5つの多様なデータセットからなる。
我々は、フロンティアモデルのクオリティ能力を評価し、スケーラブルな監視実験に活用できる幅広い性能を観察する。
- 参考スコア(独自算出の注目度): 0.6286531904189063
- License:
- Abstract: As AI models tackle increasingly complex problems, ensuring reliable human oversight becomes more challenging due to the difficulty of verifying solutions. Approaches to scaling AI supervision include debate, in which two agents engage in structured dialogue to help a judge evaluate claims; critique, in which models identify potential flaws in proposed solutions; and prover-verifier games, in which a capable 'prover' model generates solutions that must be verifiable by a less capable 'verifier'. Evaluations of the scalability of these and similar approaches to difficult problems benefit from datasets that include (1) long-form expert-verified correct solutions and (2) long-form flawed solutions with annotations highlighting specific errors, but few are available. To address this gap, we present FindTheFlaws, a group of five diverse datasets spanning medicine, mathematics, science, coding, and the Lojban language. Each dataset contains questions and long-form solutions with expert annotations validating their correctness or identifying specific error(s) in the reasoning. We evaluate frontier models' critiquing capabilities and observe a range of performance that can be leveraged for scalable oversight experiments: models performing more poorly on particular datasets can serve as judges/verifiers for more capable models. Additionally, for some task/dataset combinations, expert baselines exceed even top model performance, making them more beneficial for scalable oversight experiments.
- Abstract(参考訳): AIモデルがますます複雑な問題に対処するにつれ、ソリューションを検証するのが難しいため、信頼性の高い人間の監視がより困難になる。
AIの監督を拡大するアプローチには、2人のエージェントがクレームを評価するために構造化された対話を行う議論、モデルが提案されたソリューションの潜在的な欠陥を特定する批評、能力のある'プロデューサ'モデルがより能力の低い'検証者'によって検証されなければならないソリューションを生成する証明検証ゲームなどが含まれる。
これらの課題に対するスケーラビリティと類似したアプローチの評価は、(1)長文専門家が検証した正解と(2)特定のエラーを強調したアノテーションによる長文欠陥解を含むデータセットの恩恵を受けるが、ほとんど利用できない。
このギャップに対処するために、医学、数学、科学、コーディング、ロジバン語にまたがる5つの多様なデータセットであるFindTheFlawsを紹介します。
各データセットには質問と長文のソリューションが含まれており、専門家のアノテーションが彼らの正確性を検証するか、推論で特定のエラーを特定する。
我々は、フロンティアモデルのクオリティ機能を評価し、スケーラブルな監視実験に活用できる幅広いパフォーマンスを観察する。
さらに、タスク/データセットの組み合わせによっては、エキスパートのベースラインがトップモデルのパフォーマンスを超え、スケーラブルな監視実験に役立ちます。
関連論文リスト
- From Correctness to Comprehension: AI Agents for Personalized Error Diagnosis in Education [24.970741456147447]
大規模言語モデル(LLM)は、GSM8Kのようなベンチマークでほぼ完璧なパフォーマンスを達成し、驚くべき数学的推論能力を示している。
しかし、誤り診断やフィードバック生成よりも正確さが過大評価されているため、パーソナライズされた教育への応用は依然として限られている。
textbfMathCCSは,システム的エラー解析と修正されたフィードバックのためのベンチマークである。
第2に、過去のデータを利用してトレンドを追跡し、診断精度を向上させるシーケンシャルなエラー解析フレームワークを開発する。
第3に、歴史的分析のための時系列エージェントと実時間のためのMLLMエージェントを組み合わせたマルチエージェント協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-19T14:57:51Z) - EnigmaEval: A Benchmark of Long Multimodal Reasoning Challenges [17.056693711040747]
エニグマエスバル(EnigmaEval)は、パズル競技やイベントから派生した問題と解決策のデータセットである。
このデータセットは、暗黙の知識合成と多段階帰納的推論を実行するモデルの能力を探索する。
ベンチマークは1184のパズルで構成されており、複雑度は様々だ。
論文 参考訳(メタデータ) (2025-02-13T00:18:34Z) - Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - A Reliable Framework for Human-in-the-Loop Anomaly Detection in Time Series [17.08674819906415]
HILADは、人間とAIの動的かつ双方向なコラボレーションを促進するために設計された、新しいフレームワークである。
ビジュアルインターフェースを通じて、HILADはドメインの専門家に、大規模な予期せぬモデルの振る舞いを検出し、解釈し、修正する権限を与えます。
論文 参考訳(メタデータ) (2024-05-06T07:44:07Z) - Fusing Models with Complementary Expertise [42.099743709292866]
データ分布の相補的な知識で専門家モデルの出力を融合させるFoE(Fusion of Experts)問題を考える。
我々の方法は差別的タスクと生成的タスクの両方に当てはまる。
テスト時に専門家によるモデル評価の回数を減らすことが望まれる「フルーガル」設定にメソッドを拡張します。
論文 参考訳(メタデータ) (2023-10-02T18:31:35Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Discovering and Validating AI Errors With Crowdsourced Failure Reports [10.4818618376202]
クラウドソースの障害レポートや、モデルが失敗した理由や理由に関するエンドユーザの説明を導入し、開発者がAIエラーの検出にどのように使用できるかを示します。
また、障害レポートを合成する視覚分析システムであるDeblinderを設計、実装する。
半構造化されたインタビューと10人のAI実践者とのシンク・アラウド・スタディでは、現実の環境でのDeblinderシステムと障害報告の適用可能性について検討する。
論文 参考訳(メタデータ) (2021-09-23T23:26:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。