論文の概要: Trust Functions: Near-Lossless Weak-to-Strong Generalization by Learning When to Trust the Weak Teacher
- arxiv url: http://arxiv.org/abs/2606.01000v1
- Date: Sun, 31 May 2026 04:30:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.058599
- Title: Trust Functions: Near-Lossless Weak-to-Strong Generalization by Learning When to Trust the Weak Teacher
- Title(参考訳): 信頼機能:弱者教師を信頼するタイミングの学習による弱者から強者への一般化
- Authors: Arda Uzunoglu, Alvin Zhang, Daniel Khashabi,
- Abstract要約: 信頼できるラベルが不足している教師の指導力を利用して、力強い学生をいかに改善するかを、弱々しく一般化する。
弱いラベルごとにスカラー信頼スコアを割り当てる信頼関数を導入し、これらのスコアを用いて弱い監督をフィルタリングする。
信頼関数は、学生を訓練し、それを次の教師として再利用することで得られる利得を増幅する反復的な弱強連鎖を可能にする。
- 参考スコア(独自算出の注目度): 26.89591552454804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weak-to-strong generalization studies how to improve a strong student using supervision from a weaker teacher when reliable labels are scarce. We view this primarily as a data selection problem, where the key challenge is to identify which weak labels are reliable enough to serve as a training signal. To address this, we introduce trust functions that assign each weak label a scalar trust score and use these scores to filter weak supervision. Across several domains, including world knowledge, quantitative reasoning, and strategy games, trust filtering yields students that match and sometimes surpass ground-truth supervision, achieving near-lossless weak-to-strong generalization. Moreover, trust functions enable an iterative weak-to-strong chain that compounds gains by training a student and reusing it as the next teacher, amplifying the gains. There are several mechanisms to which advantage of trust functions can be attributed.
- Abstract(参考訳): 信頼できるラベルが不足している教師の指導力を利用して、力強い学生をいかに改善するかを、弱々しく一般化する。
これは主にデータ選択の問題であり、どの弱いラベルがトレーニング信号として機能するのに十分な信頼性があるかを特定することが重要な課題であると考えています。
これを解決するために,各弱いラベルにスカラー信頼スコアを割り当てる信頼関数を導入し,これらのスコアを用いて弱い監督をフィルタリングする。
世界的知識、量的推論、戦略ゲームなどを含むいくつかの分野において、信頼フィルタリングは学生に適合し、時には地道的な監督を超越し、ほぼ無数の弱々しい一般化を達成させる。
さらに、信頼関数は、学生を訓練し、それを次の教師として再利用することで得られる利得を増幅する反復的な弱強連鎖を可能にする。
信頼関数の利点を評価できるメカニズムはいくつかある。
関連論文リスト
- Toward Understanding Adversarial Distillation: Why Robust Teachers Fail [22.989324947501018]
Adrial Distillationは,教師のソフトラベルで生徒に指導することで,生徒の堅牢性を高めることを目的としている。
この教師依存の鍵となるメカニズムは,教師の監督的信頼度と生徒の表現的制限との相違である。
論文 参考訳(メタデータ) (2026-05-21T04:57:15Z) - Evaluating Risks in Weak-to-Strong Alignment: A Bias-Variance Perspective [0.24629531282150874]
バイアス分散共分散レンズを用いて、弱いストロングアライメントを解析する。
我々は、弱い人口リスクに不適合に基づく上限を導出する。
教師付き微調整(SFT)、人間フィードバックからの強化学習(RLHF)、AIフィードバックからの強化学習(RLAIF)の4つの弱強パイプラインの評価を行った。
論文 参考訳(メタデータ) (2026-04-28T00:15:23Z) - Attention Knows Whom to Trust: Attention-based Trust Management for LLM Multi-Agent Systems [52.57826440085856]
LLM-MAS(Large Language Model-based Multi-Agent Systems)は、複雑なタスクを解く上で強力な能力を示すが、エージェントが信頼性の低いメッセージを受け取ると弱いままである。
LLMエージェントは、信頼性を評価することなく、すべての受信メッセージを平等に扱う。
本稿では,メッセージの信頼度を評価するための軽量な注意ベース手法であるAttention Trust Score (A-Trust)を提案する。
論文 参考訳(メタデータ) (2025-06-03T07:32:57Z) - Towards Adversarial Robustness via Debiased High-Confidence Logit Alignment [24.577363665112706]
逆敵攻撃下では、高信頼出力は偏りのある特徴アクティベーションに影響される。
この急激な相関バイアスは、敵の訓練中に無関係な背景特徴を過度に適合させる。
本稿では, 障害のある高信頼度ロジットと障害のある高信頼度ロジットを整合させる新しいアプローチとして, 障害のある高信頼度ロジット訓練(DHAT)を提案する。
論文 参考訳(メタデータ) (2024-08-12T11:56:06Z) - Co-Supervised Learning: Improving Weak-to-Strong Generalization with
Hierarchical Mixture of Experts [81.37287967870589]
我々は,一貫した生徒を統括する,一貫した一貫した教師ではなく,多様な専門教師の集合を活用することを提案する。
我々のアプローチは、古典的な階層的な専門家の混合に似ている。
提案手法は,OpenAIの弱強ベンチマークと追加のマルチドメインデータセットを用いて,視覚認識タスクにより検証する。
論文 参考訳(メタデータ) (2024-02-23T18:56:11Z) - TrustGuard: GNN-based Robust and Explainable Trust Evaluation with
Dynamicity Support [59.41529066449414]
本稿では,信頼度を考慮した信頼度評価モデルであるTrustGuardを提案する。
TrustGuardは、スナップショット入力層、空間集約層、時間集約層、予測層を含む階層アーキテクチャで設計されている。
実験により、TrustGuardは、シングルタイムスロットとマルチタイムスロットの信頼予測に関して、最先端のGNNベースの信頼評価モデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-06-23T07:39:12Z) - Trust, but Verify: Using Self-Supervised Probing to Improve
Trustworthiness [29.320691367586004]
我々は、訓練されたモデルに対する自信の過剰な問題をチェックおよび緩和することのできる、自己教師型探索の新しいアプローチを導入する。
既存の信頼性関連手法に対して,プラグイン・アンド・プレイ方式で柔軟に適用可能な,シンプルで効果的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-06T08:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。