論文の概要: A Two-Phase Adaptive Balanced Penalty Method for Controllable Pareto Front Learning under Split Feasibility Conditions
- arxiv url: http://arxiv.org/abs/2605.19306v1
- Date: Tue, 19 May 2026 03:37:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.099763
- Title: A Two-Phase Adaptive Balanced Penalty Method for Controllable Pareto Front Learning under Split Feasibility Conditions
- Title(参考訳): 分割実現性条件下での2相適応的平衡ペナルティ法による制御可能なパレートフロントラーニング
- Authors: Nguyen Viet Hoang, Dung D. Le, Tran Ngoc Thang,
- Abstract要約: 我々は、厳密な理論的保証を伴う分割実現可能性条件下でのハイパーネットワークのトレーニングのオープンな問題に対処する。
本稿では, 最適性, 設定実現可能性, 画像実現可能性という3つの勾配成分を, 計算可能下界によって駆動される適応的インジケータによってブレンドする適応バランスペナルティ(ABP)アルゴリズムを提案する。
ABP-HyperNetは、36-49%から87-100%まで実現可能性を高めることで、制限のないベースラインよりも2.3倍高いFasible Hypervolume(EFHV)を達成する。
- 参考スコア(独自算出の注目度): 5.297898316219452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the open problem of training hypernetworks for Controllable Pareto Front Learning (CPFL) under split feasibility conditions with rigorous theoretical guarantees. We reformulate the constrained Pareto problem as a Bi-Level Scalarized Split Problem (BSSP) and propose the Adaptive Balanced Penalty (ABP) algorithm, whose three gradient components -- optimality, set feasibility, and image feasibility -- are blended through an adaptive indicator driven by a computable lower bound. Using a novel convex surrogate technique, we prove full-sequence convergence under standard convexity and Robbins-Monro step-size assumptions. The ABP penalty structure is then translated into a two-phase, feasibility-first training strategy for Hyper-MLP and HyperTrans architectures (ABP-HyperNet). To evaluate constrained CPFL, we introduce the Expected Feasible Hypervolume (EFHV), which jointly captures solution quality and constraint satisfaction. Experiments on five multi-objective benchmarks validate the ABP solver against ground truth, while three multi-task learning datasets demonstrate that ABP-HyperNet achieves up to 2.3x higher EFHV than unconstrained baselines by raising feasibility from 36-49% to 87-100%.
- Abstract(参考訳): 我々は、厳密な理論的保証を伴う分割実現可能性条件下で、制御可能パレートフロントラーニング(CPFL)のためのハイパーネットワークのトレーニングのオープンな問題に対処する。
本稿では,制約付きPareto問題をBSSP(Bi-Level Scalarized Split Problem)として再構成し,最適性,設定実現性,画像実現性という3つの勾配成分を,計算可能な下界によって駆動される適応指標によってブレンドする適応均衡法(Adaptive Balanced Penalty,ABP)アルゴリズムを提案する。
新規な凸代理法を用いて、標準凸性およびロビンス・モンロステップサイズの仮定の下で全列収束を証明した。
ABPのペナルティ構造は、ハイパーMLPとハイパートランスアーキテクチャ(ABP-HyperNet)のための2段階のファシビリティファーストトレーニング戦略に変換される。
制約付きCPFLを評価するために,ソリューションの品質と制約満足度を両立させるEFHV(Exped Feasible Hypervolume)を導入する。
一方、3つのマルチタスク学習データセットは、ABP-HyperNetが36-49%から87-100%まで実現可能性を高めて、制限のないベースラインよりも2.3倍高いEFHVを達成することを示した。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Hybrid TD3: Overestimation Bias Analysis and Stable Policy Optimization for Hybrid Action Space [2.4382430407654767]
本稿では、パラメータ化されたハイブリッドアクション空間を原則的に処理するTD3(Twin Delayed Deep Deterministic Policy Gradient)の拡張であるHybrid TD3を提案する。
我々は,ハイブリッド行動設定における過大評価バイアスの理論的解析を行い,双極的アーキテクチャの下での形式的境界を導出する。
本稿では、離散的な行動分布を極小化して、標準的なクリッピング最小化に等価なバイアス低減を実現する重み付きQ-ラーニングターゲットを提案する。
論文 参考訳(メタデータ) (2026-03-01T22:16:27Z) - Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability [129.1296673737603]
大規模言語モデル(LLM)は、ステップ・バイ・ステップ・チェーン・オブ・シークレット(CoT)推論を通じて強力な推論能力を示している。
潜在的には、解のより効率的な探索を容易にするために複雑な問題をサブプロブレムに分解するDAC推論がある。
本稿では,DAC型推論能力を高めるために,エンドツーエンド強化学習(RL)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T18:54:54Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - Full Conformal Adaptation of Medical Vision-Language Models [17.53651859360999]
大規模に事前訓練された視覚言語モデル(VLM)は、前例のない転送可能性を示している。
この研究は、ますます普及している分割共形予測フレームワークの下で、それらの振る舞いを調査する。
本稿では,事前学習した基礎モデルを協調的に適応・適合するための新しい設定である,完全共形適応を提案する。
論文 参考訳(メタデータ) (2025-06-06T13:32:00Z) - Stochastic Primal-Dual Double Block-Coordinate for Two-way Partial AUC Maximization [45.99743804547533]
2方向部分AUCAUCは、不均衡なデータを持つバイナリ分類における重要な性能指標である。
TPAUC最適化のための既存のアルゴリズムは未探索のままである。
TPAUC最適化のための2つの革新的な二重座標ブロック座標アルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-05-28T03:55:05Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - A Hyper-Transformer model for Controllable Pareto Front Learning with
Split Feasibility Constraints [2.07180164747172]
SFCを用いたCPFL用超変圧器(Hyper-Trans)モデルを開発した。
計算実験において,Hyper-TransモデルによりMED誤差がHyper-MLPモデルよりも小さくなることを示す。
論文 参考訳(メタデータ) (2024-02-04T10:21:03Z) - Secure Bilevel Asynchronous Vertical Federated Learning with Backward
Updating [159.48259714642447]
垂直拡張学習(VFL)は、多人数協調モデリングの要求とプライバシー漏洩の懸念により、注目を集めている。
我々は,vf$b2$を含む3つの新しいアルゴリズムを提案する新しいbftextlevel parallel architecture (vf$bfb2$)を提案する。
論文 参考訳(メタデータ) (2021-03-01T12:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。