論文の概要: Scalable Oversight for Superhuman AI via Recursive Self-Critiquing
- arxiv url: http://arxiv.org/abs/2502.04675v1
- Date: Fri, 07 Feb 2025 05:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:56:45.676383
- Title: Scalable Oversight for Superhuman AI via Recursive Self-Critiquing
- Title(参考訳): Recursive Self-Critiquingによる超人的AIのスケーラビリティの監視
- Authors: Xueru Wen, Jie Lou, Xinyu Lu, Junjie Yang, Yanjiang Liu, Yaojie Lu, Debing Zhang, XingYu,
- Abstract要約: 批判そのものよりも批判の方が容易であることを示す。
また, 直接評価が不可能な場合, 高次評価を行うことにより, よりトラクタブルな監視経路が提供されることも示唆した。
- 参考スコア(独自算出の注目度): 19.128811239757244
- License:
- Abstract: As AI capabilities increasingly surpass human proficiency in complex tasks, current alignment techniques including SFT and RLHF face fundamental challenges in ensuring reliable oversight. These methods rely on direct human assessment and become untenable when AI outputs exceed human cognitive thresholds. In response to this challenge, we explore two hypotheses: (1) critique of critique can be easier than critique itself, extending the widely-accepted observation that verification is easier than generation to the critique domain, as critique itself is a specialized form of generation; (2) this difficulty relationship is recursively held, suggesting that when direct evaluation is infeasible, performing high-order critiques (e.g., critique of critique of critique) offers a more tractable supervision pathway. To examine these hypotheses, we perform Human-Human, Human-AI, and AI-AI experiments across multiple tasks. Our results demonstrate encouraging evidence supporting these hypotheses and suggest that recursive self-critiquing is a promising direction for scalable oversight.
- Abstract(参考訳): AIの能力が複雑なタスクにおける人間の熟練度をますます上回るにつれて、SFTやRLHFといった現在のアライメント技術は、信頼性の高い監視を保証するための根本的な課題に直面している。
これらの手法は人間の直接評価に依存しており、AI出力が人間の認知閾値を超えると不可能になる。
この課題に対して,(1)批判の批判は批評よりも容易であり,(2)批判自体が特別な生成形態であるとして,検証が批判領域に容易に適用できるという広く受け入れられた観察を拡張し,(2)直接的な評価が不可能な場合には,高次の批判(例えば,批判の批判)を行うことにより,より魅力的な監視経路が提供されることを示唆する。
これらの仮説を検証するために、複数のタスクにわたるヒューマン・ヒューマン、ヒューマン・AI、AI-AI実験を行う。
本研究は,これらの仮説を裏付けるエビデンスを実証し,再帰的自己評価がスケーラブルな監視のための有望な方向であることを示唆するものである。
関連論文リスト
- ReviewEval: An Evaluation Framework for AI-Generated Reviews [9.35023998408983]
本研究は、AI生成レビューのための総合的な評価フレームワークを紹介する。
人間の評価との整合性を測定し、事実の正確性を検証し、分析的な深さを評価し、実行可能な洞察を識別する。
我々のフレームワークは、AIベースのレビューシステムを評価するための標準化されたメトリクスを確立する。
論文 参考訳(メタデータ) (2025-02-17T12:22:11Z) - Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。
コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。
最大で10.3%の改善が達成されている。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。
スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。
本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-15T10:34:06Z) - VISCO: Benchmarking Fine-Grained Critique and Correction Towards Self-Improvement in Visual Reasoning [112.35483894933904]
我々は,LVLMの細粒度評価と補正能力を広範囲に解析する最初のベンチマークであるVISCOを提案する。
VISCOは密度が高くきめ細かな批判を特徴とし、LVLMは各ステップの正しさを評価する必要がある。
LookBackは、批評と修正のパフォーマンスを最大13.5%改善する。
論文 参考訳(メタデータ) (2024-12-03T05:04:49Z) - To Err Is AI! Debugging as an Intervention to Facilitate Appropriate Reliance on AI Systems [11.690126756498223]
最適な人間とAIのコラボレーションのためのビジョンは、人間のAIシステムへの「適切な依存」を必要とする。
実際には、アウト・オブ・ディストリビューションデータにおける機械学習モデルの性能格差は、データセット固有のパフォーマンスフィードバックを信頼できないものにしている。
論文 参考訳(メタデータ) (2024-09-22T09:43:27Z) - Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic [48.94340387130627]
Critic-CoTは、LLMをSystem-2のような批判能力にプッシュするフレームワークである。
人間のアノテーションを使わずにCoT推論パラダイムと遠隔スーパービジョンデータの自動構築
GSM8KとMATHの実験は、我々の強化されたモデルがタスク解決性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-08-29T08:02:09Z) - Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。