論文の概要: Learning from Acceptance: Cumulative Regret in the Game of Coding
- arxiv url: http://arxiv.org/abs/2605.09754v1
- Date: Sun, 10 May 2026 21:04:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.40522
- Title: Learning from Acceptance: Cumulative Regret in the Game of Coding
- Title(参考訳): 受け入れから学ぶ:コーディングゲームにおける累積規則
- Authors: Hanzaleh Akbari Nodehi, Parsa Moradi, Mohammad Ali Maddah-Ali,
- Abstract要約: 我々は,データコレクタが相手のユーティリティトレードオフを知らないコーディングゲームにおいて,不完全情報バージョンについて検討する。
提案アルゴリズムは,有望な受理規則に関する探索を洗練し,サブ線形累積後悔を達成できることを証明し,その性能を評価する。
- 参考スコア(独自算出の注目度): 15.178727194172161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classical coding-theoretic guarantees often rely on trust assumptions, such as requiring sufficiently many honest nodes compared with adversarial ones. These assumptions are difficult to enforce in open decentralized systems where participants are not centrally certified. At the same time, such environments often contain incentive mechanisms: participants may be rewarded only when their submitted data are accepted and the system remains functional. This changes the role of an adversary. Rather than acting as a pure saboteur, a strategic adversary may submit data that are consistent enough to be accepted while still degrading the quality of the final estimate. The game-of-coding framework models this strategic interaction between a data collector (DC) and an adversary. Existing works on the game of coding mostly consider the complete-information case, where the DC knows how the adversary trades off acceptance and estimation error. In this paper, we study an incomplete-information version of the game of coding in which the DC, acting as a Stackelberg leader, does not know the adversary's utility trade-off and must learn through repeated interaction. Prior work on the unknown-adversary setting considered an explore-then-commit objective, where only the final selected acceptance rule is evaluated. In contrast, we study the full learning trajectory: every acceptance rule used during the algorithm is executed and contributes to performance. We propose an algorithm that refines its search around promising acceptance rules, prove that it achieves sublinear cumulative regret, and evaluate its performance through numerical experiments.
- Abstract(参考訳): 古典的な符号化理論の保証は、敵のものと比べ、十分な数の正直なノードを必要とするなど、信頼の前提に依存することが多い。
これらの仮定は、参加者が中央に認定されていないオープンな分散システムで実施することは困難である。
参加者は、提出されたデータが受け入れられ、システムが機能し続ける場合にのみ報酬を受けることができる。
これは敵の役割を変える。
純粋なサボツールとして振る舞うのではなく、戦略的な敵は、最終的な見積もりの品質を低下させながら、受け入れられるだけの一貫性のあるデータを提出することができる。
ゲーム・オブ・コーディングのフレームワークは、データコレクタ(DC)と敵の間の戦略的相互作用をモデル化する。
既存のコーディングゲームにおける作業は、DCが敵が受け入れと推定誤差をどう引き離すかを知っている完全情報ケースを主に考慮している。
本稿では,Stackelberg のリーダーとして機能する DC が敵の効用トレードオフを知らず,繰り返しの相互作用を通じて学習しなければならない,コーディングゲームの不完全情報バージョンについて検討する。
未知の敵の設定に関する先行研究は、最終選択された受理規則のみを評価する探索対象とみなした。
対照的に、アルゴリズムで使用される全ての受け入れルールは実行され、性能に寄与する。
提案するアルゴリズムは,有望な受理規則に関する探索を洗練し,サブ線形累積的後悔を達成し,数値実験によりその性能を評価する。
関連論文リスト
- \mathsf{VISTA}: Decentralized Machine Learning in Adversary Dominated Environments [21.69919643934826]
分散機械学習は、評価などのアウトソーシング計算を信頼できないワーカノードに頼っていることが多い。
本稿では, 相互に整合性がある場合にのみ, 報告を受理し, 報奨するインセンティブ指向の枠組みを通じて, 敵に支配される設定について検討する。
本稿では,最適化履歴を用いた適応アルゴリズムであるmathsfVISTAを提案する。
論文 参考訳(メタデータ) (2026-05-08T15:07:15Z) - Partial Identification Approach to Counterfactual Fairness Assessment [50.88100567472179]
未知の対実的公正度尺度を高い信頼性で有界化するためのベイズ的アプローチを導入する。
以上の結果から、人種をアフリカ系アメリカ人に転換する際のCompASスコアに対する肯定的な(不快な)効果と、若年から高齢に移行する際の否定的な(直接的な因果関係)効果が明らかとなった。
論文 参考訳(メタデータ) (2025-09-30T18:35:08Z) - Beyond Agreement: Rethinking Ground Truth in Educational AI Annotation [1.8434042562191815]
我々は、注釈品質ハッパーのゲートキーパーとしての人間間信頼性(IRR)への過度な依存が、データの分類に進展していると論じる。
本稿では,マルチラベルアノテーションスキーム,エキスパートベースアプローチ,クローズ・ザ・ループの有効性など,補完的な評価手法の5つの例を紹介する。
我々は、アノテーションの品質と基礎的真実を再考し、合意のみに対する妥当性と教育的影響を優先することを求める。
論文 参考訳(メタデータ) (2025-07-31T20:05:26Z) - Probably Approximately Precision and Recall Learning [60.00180898830079]
機械学習における重要な課題は、一方的なフィードバックの頻度である。
本稿では,確率的近似(PAC)フレームワークを導入し,各入力をラベルの集合にマッピングする仮説を定めている。
我々は、正のデータのみから学習する新しいアルゴリズムを開発し、実現可能な場合において最適なサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Decoupling the Class Label and the Target Concept in Machine Unlearning [81.69857244976123]
機械学習の目的は、トレーニングデータの一部を除外した再トレーニングされたモデルを近似するために、トレーニングされたモデルを調整することだ。
過去の研究では、クラスワイド・アンラーニングが対象クラスの知識を忘れることに成功していることが示された。
我々は、TARget-aware Forgetting (TARF) という一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-12T14:53:30Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - A Call to Reflect on Evaluation Practices for Failure Detection in Image
Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。
簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文 参考訳(メタデータ) (2022-11-28T12:25:27Z) - ConQUR: Mitigating Delusional Bias in Deep Q-learning [45.21332566843924]
妄想バイアスは、近似Q-ラーニングにおける基本的なエラー源である。
我々は,根底にある欲求政策クラスと「一致」したラベルを持つQ近似器を訓練することで,妄想バイアスを緩和する効率的な方法を開発した。
論文 参考訳(メタデータ) (2020-02-27T19:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。