論文の概要: To Ask or Not to Ask: Learning to Require Human Feedback
- arxiv url: http://arxiv.org/abs/2510.08314v1
- Date: Thu, 09 Oct 2025 15:00:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.151616
- Title: To Ask or Not to Ask: Learning to Require Human Feedback
- Title(参考訳): 質問すべきかどうか:人間のフィードバックを必要とすることを学ぶ
- Authors: Andrea Pugnana, Giovanni De Toni, Cesare Barbera, Roberto Pellungrini, Bruno Lepri, Andrea Passerini,
- Abstract要約: 機械学習モデルにエキスパートインプットをいつ、どのように組み込むかを扱う新しいフレームワークを提案する。
LtAは、標準的なMLモデルと、さらなる専門家のフィードバックでトレーニングされた強化モデルという、2部構成のアーキテクチャに基づいている。
LtAの実践的な実装として、ステージ内のモデルをトレーニングするシーケンシャルアプローチと、それらを同時に最適化するジョイントアプローチの2つを挙げる。
- 参考スコア(独自算出の注目度): 16.806124909744877
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Developing decision-support systems that complement human performance in classification tasks remains an open challenge. A popular approach, Learning to Defer (LtD), allows a Machine Learning (ML) model to pass difficult cases to a human expert. However, LtD treats humans and ML models as mutually exclusive decision-makers, restricting the expert contribution to mere predictions. To address this limitation, we propose Learning to Ask (LtA), a new framework that handles both when and how to incorporate expert input in an ML model. LtA is based on a two-part architecture: a standard ML model and an enriched model trained with additional expert human feedback, with a formally optimal strategy for selecting when to query the enriched model. We provide two practical implementations of LtA: a sequential approach, which trains the models in stages, and a joint approach, which optimises them simultaneously. For the latter, we design surrogate losses with realisable-consistency guarantees. Our experiments with synthetic and real expert data demonstrate that LtA provides a more flexible and powerful foundation for effective human-AI collaboration.
- Abstract(参考訳): 分類タスクにおける人間のパフォーマンスを補完する意思決定支援システムの開発は、依然としてオープンな課題である。
一般的なアプローチであるLearning to Defer(LtD)は、機械学習(ML)モデルによって、難しいケースを人間の専門家に渡すことを可能にする。
しかし、LtDは人間とMLモデルを相互排他的な意思決定者として扱い、単なる予測に対する専門家の貢献を制限する。
この制限に対処するために、MLモデルにエキスパートインプットをいつ、どのように組み込むかを扱う新しいフレームワークであるLearning to Ask (LtA)を提案する。
LtAは、標準的なMLモデルと、さらなる専門家のフィードバックで訓練された強化モデルという2部構成のアーキテクチャに基づいている。
LtAの実践的な実装として,段階的にモデルを訓練するシーケンシャルアプローチと,それらを同時に最適化するジョイントアプローチの2つを挙げる。
後者では、現実的な一貫性を保証するサロゲート損失を設計する。
人工的および現実的な専門家データを用いた実験により、LtAはより柔軟で強力な人間-AIコラボレーション基盤を提供することが示された。
関連論文リスト
- Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Human-AI Collaborative Essay Scoring: A Dual-Process Framework with LLMs [13.262711792955377]
本研究では,Large Language Models (LLMs) のエッセイ自動評価における有効性について検討した。
本稿では,デュアルプロセス理論にインスパイアされたオープンソースのLLMベースのAESシステムを提案する。
本システムでは, 学習過程の自動化だけでなく, 成績や効率の向上も図っている。
論文 参考訳(メタデータ) (2024-01-12T07:50:10Z) - Design Patterns for Machine Learning Based Systems with
Human-in-the-Loop [13.720835527532733]
機械学習への人間の関与は、純粋に自動化された予測の限界を克服する、有望で強力なパラダイムである。
設計パターンのカタログをコンパイルし、開発者が適切なHuman-in-the-loop(HiL)ソリューションを選択し実装する。
論文 参考訳(メタデータ) (2023-12-01T13:46:38Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Towards Model-informed Precision Dosing with Expert-in-the-loop Machine
Learning [0.0]
モデル学習ループに人的専門家を取り入れることで、モデル学習を加速し、解釈可能性を向上させるMLフレームワークを検討する。
本稿では,データアノテーションのコストが高い学習問題に対処することを目的とした,新たなヒューマン・イン・ザ・ループMLフレームワークを提案する。
精度測定への応用により,本手法はデータから解釈可能なルールを学習し,専門家の作業負荷を低減できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-28T03:45:09Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。