論文の概要: SNAP: A Self-Consistent Agreement Principle with Application to Robust Computation
- arxiv url: http://arxiv.org/abs/2602.02013v1
- Date: Mon, 02 Feb 2026 12:10:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.132546
- Title: SNAP: A Self-Consistent Agreement Principle with Application to Robust Computation
- Title(参考訳): SNAP:ロバスト計算を応用した自己一貫性のある合意原則
- Authors: Xiaoyi Jiang, Andreas Nienkötter,
- Abstract要約: SNAP(Self-coNsistent Agreement Principle)は、相互合意に基づく堅牢な計算のための自己組織化されたフレームワークである。
SNAPは、合意を定量化し、信頼できる項目を強調し、監督や事前の知識なしにアウトリーチを下げる重みを割り当てる。
- 参考スコア(独自算出の注目度): 4.778273725551649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SNAP (Self-coNsistent Agreement Principle), a self-supervised framework for robust computation based on mutual agreement. Based on an Agreement-Reliability Hypothesis SNAP assigns weights that quantify agreement, emphasizing trustworthy items and downweighting outliers without supervision or prior knowledge. A key result is the Exponential Suppression of Outlier Weights, ensuring that outliers contribute negligibly to computations, even in high-dimensional settings. We study properties of SNAP weighting scheme and show its practical benefits on vector averaging and subspace estimation. Particularly, we demonstrate that non-iterative SNAP outperforms the iterative Weiszfeld algorithm and two variants of multivariate median of means. SNAP thus provides a flexible, easy-to-use, broadly applicable approach to robust computation.
- Abstract(参考訳): 相互合意に基づくロバストな計算のための自己監督型フレームワークSNAP(Self-coNsistent Agreement Principle)を紹介する。
SNAPは、合意-信頼性仮説に基づいて、合意を定量化し、信頼できる項目を強調し、監督や事前の知識なしにアウトリーフを下げる重みを割り当てる。
主な結果は、高次元の設定においても、アウトリーチが計算に無視的に寄与することを保証する、アウトリーチ重みの指数抑制である。
SNAP重み付け方式の特性について検討し,ベクトル平均化と部分空間推定における実用的利点を示す。
特に、非定性SNAPが反復ワイズフェルトアルゴリズムと2種類の多変量平均中央値よりも優れていることを示す。
これによりSNAPは、堅牢な計算に柔軟で、使いやすく、広く適用可能なアプローチを提供する。
関連論文リスト
- Outcome-Grounded Advantage Reshaping for Fine-Grained Credit Assignment in Mathematical Reasoning [60.00161035836637]
グループ相対政策最適化は、推論タスクのための有望な批判のない強化学習パラダイムとして登場した。
我々は,各トークンがモデルの最終回答にどの程度影響するかに基づいて,利益を再分配する,きめ細かい信用割当機構であるOutcome-grounded Advantage Reshaping (OAR)を紹介した。
OAR-Gは計算オーバーヘッドを無視して同等のゲインを達成し、どちらも強力なGRPOベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2026-01-12T10:48:02Z) - Segmental Advantage Estimation: Enhancing PPO for Long-Context LLM Training [17.530233901658253]
セグメンショナルアドバンテージ推定は、一般化アドバンテージ推定が検証されたリワードを用いた強化学習において生じるバイアスを緩和する。
SAEは、最終的なスコア、安定性、サンプル効率を著しく改善し、優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-12T08:41:47Z) - AWPO: Enhancing Tool-Use of Large Language Models through Explicit Integration of Reasoning Rewards [60.2998874976509]
我々は,ツール利用能力を高めるために,明示的な推論報酬を統合するために,有利なポリシー最適化(AWPO)を提案する。
AWPOは分散認識ゲーティングと困難認識重み付けを導入し、推論信号から利点を適応的に変調する。
実験により、AWPOは標準的なツール使用ベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-12-22T08:07:00Z) - The $φ$-PCA Framework: A Unified and Efficiency-Preserving Approach with Robust Variants [0.0]
我々は、ロバストで分散したPCAの統一的な定式化を提供する$phi$-PCAフレームワークを紹介した。
我々は,$phi$-PCAの根底にある分割集約原理が,ロバストで効率的な保存手法を開発するための一般的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-15T05:21:11Z) - Unveil Sources of Uncertainty: Feature Contribution to Conformal Prediction Intervals [0.3495246564946556]
共形予測(CP)に基づく新しいモデルに依存しない不確実性属性(UA)法を提案する。
我々は,CP間隔特性-幅や境界条件-を値関数として定義し,入力特徴に対する予測不確かさを属性とする協調ゲームを定義する。
人工ベンチマークと実世界のデータセットを用いた実験は、我々のアプローチの実用的有用性と解釈的深さを実証する。
論文 参考訳(メタデータ) (2025-05-19T13:49:05Z) - Finite-Sample Analysis of Policy Evaluation for Robust Average Reward Reinforcement Learning [50.81240969750462]
我々は、ロバスト平均マルコフ決定過程(PMD)における政策評価の第1次有限サンプル解析を提案する。
頑健なベルマン作用素は、慎重に構築された半ノルムの下で収縮し、制御バイアスを持つフレームワークを開発することを示す。
本手法は,ロバストな政策評価とロバストな平均報酬推定のために,$tildemathcalO(epsilon-2)$のオーダー最適サンプル複雑性を実現する。
論文 参考訳(メタデータ) (2025-02-24T03:55:09Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Adversarial Robustness Guarantees for Gaussian Processes [22.403365399119107]
ガウス過程(GP)は、モデルの不確実性の原理的計算を可能にし、安全性に重要なアプリケーションに魅力的です。
境界付き摂動に対するモデル決定の不変性として定義されるGPの対向的堅牢性を分析するためのフレームワークを提案する。
我々は境界を洗練し、任意の$epsilon > 0$に対して、我々のアルゴリズムが有限個の反復で実際の値に$epsilon$-closeの値に収束することを保証していることを示す分岐とバウンドのスキームを開発する。
論文 参考訳(メタデータ) (2021-04-07T15:14:56Z) - $\gamma$-ABC: Outlier-Robust Approximate Bayesian Computation Based on a
Robust Divergence Estimator [95.71091446753414]
最寄りの$gamma$-divergence推定器をデータ差分尺度として用いることを提案する。
本手法は既存の不一致対策よりも高いロバスト性を実現する。
論文 参考訳(メタデータ) (2020-06-13T06:09:27Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。