論文の概要: Multi-Level Strategic Classification: Incentivizing Improvement through Promotion and Relegation Dynamics
- arxiv url: http://arxiv.org/abs/2602.11439v1
- Date: Wed, 11 Feb 2026 23:35:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.575799
- Title: Multi-Level Strategic Classification: Incentivizing Improvement through Promotion and Relegation Dynamics
- Title(参考訳): マルチレベル戦略分類:促進と回帰ダイナミクスによる改善のインセンティブ
- Authors: Ziyuan Huang, Lina Alkarmi, Mingyan Liu,
- Abstract要約: 自己関心のある個人やエージェントが、適切な意思決定結果を得るために、その反応を操作できる問題について検討する。
本モデルでは, エージェントの注意力, スキル保持力, および, 能力と達成能力が自己強化できる脚上げ効果によって引き起こされる時間的インセンティブを, 時間的インセンティブとして捉えた。
軽微な条件下では、エージェントは真の改善努力のみで任意に高いレベルに達することができることを実証する。
- 参考スコア(独自算出の注目度): 11.395181681423892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Strategic classification studies the problem where self-interested individuals or agents manipulate their response to obtain favorable decision outcomes made by classifiers, typically turning to dishonest actions when they are less costly than genuine efforts. While existing studies on sequential strategic classification primarily focus on optimizing dynamic classifier weights, we depart from these weight-centric approaches by analyzing the design of classifier thresholds and difficulty progression within a multi-level promotion-relegation framework. Our model captures the critical inter-temporal incentives driven by an agent's farsightedness, skill retention, and a leg-up effect where qualification and attainment can be self-reinforcing. We characterize the agent's optimal long-term strategy and demonstrate that a principal can design a sequence of thresholds to effectively incentivize honest effort. Crucially, we prove that under mild conditions, this mechanism enables agents to reach arbitrarily high levels solely through genuine improvement efforts.
- Abstract(参考訳): 戦略分類は、自己関心のある個人やエージェントが反応を操り、分類者によってなされる好ましい決定結果を得るという問題を研究する。
逐次的戦略分類の研究は主に動的分類器重みの最適化に重点を置いているが、分類器しきい値の設計と多段階のプロモーション・レグレゲーション・フレームワークの難易度を解析することによって、これらの重み中心のアプローチから離れている。
本モデルでは, エージェントの注意力, スキル保持力, および, 能力と達成能力が自己強化できる脚上げ効果によって引き起こされる時間的インセンティブを, 時間的インセンティブとして捉えた。
エージェントの最適な長期戦略を特徴付けるとともに、プリンシパルが一連の閾値を設計して、誠実な努力を効果的に動機付けることを実証する。
重要なことは、軽微な条件下では、エージェントは真の改善努力のみで任意に高いレベルに達することができることを証明している。
関連論文リスト
- Integrating Diverse Assignment Strategies into DETRs [61.61489761918158]
ラベル割り当ては、特にDETRスタイルのフレームワークにおいて、オブジェクト検出器において重要なコンポーネントである。
我々は,任意のDETR型検出器に多様な割り当て戦略をシームレスに統合する,フレキシブルで軽量なフレームワークであるLoRA-DETRを提案する。
論文 参考訳(メタデータ) (2026-01-14T07:28:54Z) - CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent [53.56274149236814]
CARLは,多段階エージェントに適した,クリティカルアクションに着目した強化学習アルゴリズムである。
Carlは、トレーニング中のパフォーマンスと高い効率の両方を達成し、さまざまな評価設定にわたって推論を行う。
論文 参考訳(メタデータ) (2025-12-04T16:15:46Z) - CATArena: Evaluation of LLM Agents through Iterative Tournament Competitions [49.02422075498554]
大言語モデル(LLM)エージェントは、基本的なテキスト生成から、外部ツールとのインタラクションを通じて、複雑なタスクを自律的に完了するまで進化してきた。
本研究では,人間レベルインテリジェンスに向けたエージェント進化のコアドライバとして,自己改善とピアラーニングの両方を含む学習能力の重要性を強調した。
本稿では,反復的かつ競合的なピアラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-30T15:22:53Z) - Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning [56.496001894673235]
強化学習(RL)は,大規模言語モデル(LLM)の複雑な推論能力の向上に有効であることが証明された。
解析の結果,アハモーメント,長さスケーリング,エントロピーのダイナミクスといったファズリング現象は異なる現象ではなく,創発的推論階層の目印であることがわかった。
論文 参考訳(メタデータ) (2025-09-03T18:52:49Z) - Learning to Lead: Incentivizing Strategic Agents in the Dark [50.93875404941184]
一般化プリンシパルエージェントモデルのオンライン学習バージョンについて検討する。
この挑戦的な設定のための最初の証明可能なサンプル効率アルゴリズムを開発した。
我々は、プリンシパルの最適ポリシーを学ぶために、ほぼ最適な $tildeO(sqrtT) $ regret bound を確立する。
論文 参考訳(メタデータ) (2025-06-10T04:25:04Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Algorithmic Decision-Making under Agents with Persistent Improvement [9.296248945826084]
人間の戦略的行動下でのアルゴリズムによる意思決定について検討する。
まず、永続的な改善を特徴付ける動的モデルを開発する。
次に、意思決定者がエージェントの集団の中で最大の改善をインセンティブにするための最適なポリシーを設計する方法について研究する。
論文 参考訳(メタデータ) (2024-05-03T01:36:35Z) - Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:02:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。