論文の概要: Towards a Cascaded LLM Framework for Cost-effective Human-AI Decision-Making
- arxiv url: http://arxiv.org/abs/2506.11887v2
- Date: Mon, 16 Jun 2025 14:30:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 13:01:17.506454
- Title: Towards a Cascaded LLM Framework for Cost-effective Human-AI Decision-Making
- Title(参考訳): 費用対効果の高いAI意思決定のためのLCMフレームワークの実現に向けて
- Authors: Claudio Fanconi, Mihaela van der Schaar,
- Abstract要約: 複数の専門分野にまたがってタスクを適応的に委譲するLLM決定フレームワークを提案する。
まず、deferral Policyは、ベースモデルの回答を受け入れるか、あるいは大きなモデルでそれを再生するかを決定する。
第2に、禁忌ポリシーは、カスケードモデル応答が十分に確実であるか、または人間の介入を必要とするかを判定する。
- 参考スコア(独自算出の注目度): 55.2480439325792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective human-AI decision-making balances three key factors: the \textit{correctness} of predictions, the \textit{cost} of knowledge and reasoning complexity, and the confidence about whether to \textit{abstain} automated answers or involve human experts. In this work, we present a cascaded LLM decision framework that adaptively delegates tasks across multiple tiers of expertise -- a base model for initial candidate answers, a more capable and knowledgeable (but costlier) large model, and a human expert for when the model cascade abstains. Our method proceeds in two stages. First, a deferral policy determines whether to accept the base model's answer or regenerate it with the large model based on the confidence score. Second, an abstention policy decides whether the cascade model response is sufficiently certain or requires human intervention. Moreover, we incorporate an online learning mechanism in the framework that can leverage human feedback to improve decision quality over time. We demonstrate this approach to general question-answering (ARC-Easy and ARC-Challenge) and medical question-answering (MedQA and MedMCQA). Our results show that our cascaded strategy outperforms in most cases single-model baselines in accuracy while reducing cost and providing a principled way to handle abstentions.
- Abstract(参考訳): 効果的なヒューマンAI意思決定は、予測の「textit{correctness}」、知識と推論の複雑さの「textit{ Cost}」、自動回答の「textit{abstain}」、あるいは人間の専門家の関与という3つの主要な要因のバランスをとる。
本研究では,複数の専門分野にまたがってタスクを適応的に委譲するケースケード型LCM決定フレームワークを提案する。
私たちの方法は2段階に進む。
まず、基準モデルの回答を受け入れるか、信頼度スコアに基づいて大モデルで再生するかを決定する。
第2に、禁忌ポリシーは、カスケードモデル応答が十分に確実であるか、または人間の介入が必要であるかを判定する。
さらに、人間のフィードバックを活用して意思決定の質を向上させるオンライン学習機構をフレームワークに組み込んだ。
本稿では,一般質問応答(ARC-Easy,ARC-Challenge)と医療質問応答(MedQA,MedMCQA)について述べる。
以上の結果から,我々のケースド戦略は,コストを削減しつつ単一モデルベースラインの精度を向上し,棄権処理の原則的方法として優れていたことが示唆された。
関連論文リスト
- Bounded-Abstention Pairwise Learning to Rank [21.876570823233656]
欠如は、アルゴリズムによる意思決定システムによって、不確実または低信頼な決定を人間の専門家に延期することを可能にする。
ペアワイズ・ラーニング・ツー・ランク・タスクにおける禁忌のための新しい手法を提案する。
我々の貢献は3つある: 最適棄権戦略の理論的特徴、収権モデルを構築するためのモデルに依存しないプラグインアルゴリズム、および複数のデータセットにわたる包括的経験的評価である。
論文 参考訳(メタデータ) (2025-05-29T13:35:39Z) - DeCoDe: Defer-and-Complement Decision-Making via Decoupled Concept Bottleneck Models [37.118479480792416]
我々は人間-AI協調のための概念駆動型フレームワークを提案する。
DeCoDeは人間解釈可能な概念表現に基づいて戦略決定を行う。
自律的なAI予測、人間への延期、人間とAIの協調的な相補性という3つのモードをサポートする。
論文 参考訳(メタデータ) (2025-05-25T16:34:45Z) - The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。
スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。
本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-15T10:34:06Z) - Learning To Guide Human Decision Makers With Vision-Language Models [17.957952996809716]
医療診断などの高度なタスクにおいて、人間の意思決定を支援するAIの開発への関心が高まっている。
学習指導(Learning to Guide,LTG)は、人間の専門家から制御されるのではなく、機械が指導を提供するフレームワークである。
指導が解釈可能であることを保証するため,任意の視覚言語モデルをテキスト誘導の能力のある生成器に変換するアプローチであるSLOGを開発した。
論文 参考訳(メタデータ) (2024-03-25T07:34:42Z) - Understanding the (Extra-)Ordinary: Validating Deep Model Decisions with Prototypical Concept-based Explanations [13.60538902487872]
本稿では, 実例的(地域的)かつクラス的(グローバル的)な意思決定戦略をプロトタイプを通じて伝達する, ポストホックなコンセプトベースXAIフレームワークを提案する。
我々は,3つのデータセットにまたがるアウト・オブ・ディストリビューション・サンプル,突発的なモデル行動,データ品質問題同定におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-11-28T10:53:26Z) - Reinforcement Learning with Human Feedback: Learning Dynamic Choices via
Pessimism [91.52263068880484]
人間のフィードバックを用いたオフライン強化学習(RLHF)について検討する。
我々は、人間の選択によって引き起こされる一連の軌道から、人間の根底にある報酬とMDPの最適政策を学習することを目指している。
RLHFは、大きな状態空間だが人間のフィードバックが限られていること、人間の決定の有界な合理性、政治外の分散シフトなど、さまざまな理由から挑戦されている。
論文 参考訳(メタデータ) (2023-05-29T01:18:39Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。