論文の概要: Fatigue-Aware Learning to Defer via Constrained Optimisation
- arxiv url: http://arxiv.org/abs/2604.00904v1
- Date: Wed, 01 Apr 2026 13:48:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.01335
- Title: Fatigue-Aware Learning to Defer via Constrained Optimisation
- Title(参考訳): 制約付き最適化によるディフェンダの疲労認識学習
- Authors: Zheng Zhang, Cuong C. Nguyen, David Rosewarne, Kevin Wells, Gustavo Carneiro,
- Abstract要約: 遅延の学習は、AIシステムが自律的に行動すべきか、それとも人間の専門家に延期すべきかを判断することで、人間とAIの協力を可能にする。
既存のL2D法は、疲労による劣化に関する確立された知見と矛盾し、静的な人間のパフォーマンスを仮定する。
制約付き最適化を用いた疲労認識学習について提案する。
- 参考スコア(独自算出の注目度): 15.638903162520448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to defer (L2D) enables human-AI cooperation by deciding when an AI system should act autonomously or defer to a human expert. Existing L2D methods, however, assume static human performance, contradicting well-established findings on fatigue-induced degradation. We propose Fatigue-Aware Learning to Defer via Constrained Optimisation (FALCON), which explicitly models workload-varying human performance using psychologically grounded fatigue curves. FALCON formulates L2D as a Constrained Markov Decision Process (CMDP) whose state includes both task features and cumulative human workload, and optimises accuracy under human-AI cooperation budgets via PPO-Lagrangian training. We further introduce FA-L2D, a benchmark that systematically varies fatigue dynamics from near-static to rapidly degrading regimes. Experiments across multiple datasets show that FALCON consistently outperforms state-of-the-art L2D methods across coverage levels, generalises zero-shot to unseen experts with different fatigue patterns, and demonstrates the advantage of adaptive human-AI collaboration over AI-only or human-only decision-making when coverage lies strictly between 0 and 1.
- Abstract(参考訳): 遅延学習(L2D)は、AIシステムが自律的に行動すべきか、それとも人間の専門家に延期すべきかを判断することで、人間とAIの協力を可能にする。
しかし, 既存のL2D法では, 疲労による劣化に関する確固とした知見とは矛盾し, 静的な人体性能を仮定する。
本研究では,疲労曲線を用いた作業負荷変動性能を明示的にモデル化したFALCON(Constrained Optimisation)による疲労認識学習を提案する。
FALCON は L2D を、タスク特徴と累積的な人間の作業量の両方を含む制約付きマルコフ決定プロセス (CMDP) として定式化し、PPO-ラグランジアントレーニングを通じて人間とAIの協力予算の下で精度を最適化する。
FA-L2Dは、ほぼ静的な状態から急速に劣化する状態への疲労ダイナミクスを系統的に変化させるベンチマークである。
複数のデータセットにわたる実験によると、FALCONは、カバレッジレベルを越えて、最先端のL2Dメソッドを一貫して上回り、異なる疲労パターンを持つ見知らぬ専門家にゼロショットを一般化し、カバレッジが0から1の間にある場合に、AIのみまたは人間のみの意思決定よりも、適応的な人間とAIのコラボレーションの利点を示す。
関連論文リスト
- DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA [72.9197085473598]
DIALはハイレベルな意思決定と低レベルなモーター実行を、差別化可能な潜在意図ボトルネックを通じてブリッジするフレームワークである。
VLMベースのSystem-2は、VLMのネイティブな特徴空間内で、潜伏した視覚的フォレストによって潜伏世界モデリングを行う。
軽量のSystem-1ポリシーでは、この予測された意図と現在の観測結果を正確にロボットの動作にデコードする。
論文 参考訳(メタデータ) (2026-03-31T15:02:27Z) - Align When They Want, Complement When They Need! Human-Centered Ensembles for Adaptive Human-AI Collaboration [13.041288521972563]
人間とAIの意思決定において、人間の専門知識を補完するAIを設計することは、人間とAIのコラボレーションを強化する自然な戦略である。
一致したAIは、信頼を育みながら、最適な人間の行動を補強し、人間とAIチームのパフォーマンスを低下させるリスクを負う。
我々は、2つの専門的AIモデルの間で戦略的に切り替える、人間中心の適応型AIアンサンブルを新たに導入する。
論文 参考訳(メタデータ) (2026-02-23T18:22:58Z) - Real-world Reinforcement Learning from Suboptimal Interventions [39.23110010675281]
SiLRI (SiLRI) は、現実のロボット操作タスクのための州立ラグランジアン強化学習アルゴリズムである。
我々のアルゴリズムは,人間間遠隔操作システムに基づいて,多様な操作タスクに関する実世界の実験を通じて評価される。
論文 参考訳(メタデータ) (2025-12-30T15:26:42Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - To Ask or Not to Ask: Learning to Require Human Feedback [16.806124909744877]
機械学習モデルにエキスパートインプットをいつ、どのように組み込むかを扱う新しいフレームワークを提案する。
LtAは、標準的なMLモデルと、さらなる専門家のフィードバックでトレーニングされた強化モデルという、2部構成のアーキテクチャに基づいている。
LtAの実践的な実装として、ステージ内のモデルをトレーニングするシーケンシャルアプローチと、それらを同時に最適化するジョイントアプローチの2つを挙げる。
論文 参考訳(メタデータ) (2025-10-09T15:00:06Z) - Explainable AI for Collaborative Assessment of 2D/3D Registration Quality [50.65650507103078]
本稿では,2D/3D登録品質検証に特化して訓練された最初の人工知能フレームワークを提案する。
我々の説明可能なAI(XAI)アプローチは、人間のオペレーターに対する情報意思決定を強化することを目的としている。
論文 参考訳(メタデータ) (2025-07-23T15:28:57Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - FiFAR: A Fraud Detection Dataset for Learning to Defer [9.187694794359498]
本研究では、銀行口座不正検出データセットであるFiFAR(Financial Fraud Alert Review dataset)を紹介する。
FiFARには、複雑な50人のチームによる予測が含まれている。
我々は,本データセットを用いて,現実的なデータ可用性条件下でのキャパシティを意識したL2D法と拒絶学習手法を開発した。
論文 参考訳(メタデータ) (2023-12-20T17:36:36Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文 参考訳(メタデータ) (2022-08-04T23:53:51Z) - Human-AI Collaboration in Decision-Making: Beyond Learning to Defer [4.874780144224057]
意思決定における人間-AIコラボレーション(HAIC)は、人間とAIシステム間の相乗的チームを作ることを目的としている。
Learning to Defer(L2D)は、人間とAIのどちらが決定を下すべきかを決定する、有望なフレームワークとして提示されている。
L2Dは、すべてのケースで人間からの予測が利用可能になったり、意思決定者から独立した地道なラベルが利用可能になったりするなど、しばしば実現不可能な要件がいくつか含まれている。
論文 参考訳(メタデータ) (2022-06-27T11:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。