論文の概要: Large language models require a new form of oversight: capability-based monitoring
- arxiv url: http://arxiv.org/abs/2511.03106v1
- Date: Wed, 05 Nov 2025 01:20:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.289033
- Title: Large language models require a new form of oversight: capability-based monitoring
- Title(参考訳): 大規模言語モデルには新たな監視形式が必要:能力に基づく監視
- Authors: Katherine C. Kellogg, Bingyang Ye, Yifan Hu, Guergana K. Savova, Byron Wallace, Danielle S. Bitterman,
- Abstract要約: 医療における大規模言語モデル(LLM)には、その監視に関する精査が伴っている。
そこで本研究では,これらのモデルの開発と実用化に基礎を置き,拡張性のあるジェネラリストLLMモニタリングの組織的原則を提案する。
機能ベースのモニタリングアプローチを実装する上で、開発者、組織リーダー、プロフェッショナル社会に対する考慮事項について説明する。
- 参考スコア(独自算出の注目度): 10.382163755118713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid adoption of large language models (LLMs) in healthcare has been accompanied by scrutiny of their oversight. Existing monitoring approaches, inherited from traditional machine learning (ML), are task-based and founded on assumed performance degradation arising from dataset drift. In contrast, with LLMs, inevitable model degradation due to changes in populations compared to the training dataset cannot be assumed, because LLMs were not trained for any specific task in any given population. We therefore propose a new organizing principle guiding generalist LLM monitoring that is scalable and grounded in how these models are developed and used in practice: capability-based monitoring. Capability-based monitoring is motivated by the fact that LLMs are generalist systems whose overlapping internal capabilities are reused across numerous downstream tasks. Instead of evaluating each downstream task independently, this approach organizes monitoring around shared model capabilities, such as summarization, reasoning, translation, or safety guardrails, in order to enable cross-task detection of systemic weaknesses, long-tail errors, and emergent behaviors that task-based monitoring may miss. We describe considerations for developers, organizational leaders, and professional societies for implementing a capability-based monitoring approach. Ultimately, capability-based monitoring will provide a scalable foundation for safe, adaptive, and collaborative monitoring of LLMs and future generalist artificial intelligence models in healthcare.
- Abstract(参考訳): 医療における大規模言語モデル(LLM)の急速な採用には、その監視の精査が伴っている。
従来の機械学習(ML)から継承された既存の監視アプローチは、タスクベースで、データセットのドリフトに起因する推定パフォーマンス劣化に基づいて構築されている。
対照的に, LLMでは, 特定の集団の特定のタスクに対して, LLMは訓練を受けていなかったため, トレーニングデータセットと比較して集団の変化による避けられないモデル劣化が想定できない。
そこで本研究では,これらのモデルの開発と実用化に基礎を置き,拡張性のある汎用LLMモニタリングの組織的原則を提案する。
能力に基づくモニタリングは、LLMが多くの下流タスクで重複する内部機能を再利用する汎用システムであるという事実によって動機付けられている。
このアプローチは、各ダウンストリームタスクを独立して評価するのではなく、要約、推論、翻訳、安全ガードレールなどの共有モデル機能に関する監視を組織し、タスクベースの監視が見逃す可能性のあるシステム的弱点、長いテールエラー、緊急行動のクロスタスク検出を可能にする。
機能ベースのモニタリングアプローチを実装する上で、開発者、組織リーダー、プロフェッショナル社会に対する考慮事項について説明する。
最終的に、能力ベースのモニタリングは、医療におけるLLMと将来の汎用人工知能モデルの安全で適応的で協調的なモニタリングのためのスケーラブルな基盤を提供する。
関連論文リスト
- Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Small LLMs Do Not Learn a Generalizable Theory of Mind via Reinforcement Learning [1.6114012813668932]
小言語モデル(LLM)は、精神の理論(ToM)能力の開発に苦慮している。
長いRLトレーニングは、トレーニングデータセットの統計パターンをハッキングするモデルにつながる。
これは学習された振る舞いが、真の抽象的なToM能力の獲得ではなく、狭いオーバーフィッティングの形式であることを示唆している。
論文 参考訳(メタデータ) (2025-07-21T16:47:59Z) - Improving LLM Reasoning for Vulnerability Detection via Group Relative Policy Optimization [45.799380822683034]
大規模言語モデル(LLM)のためのRLベースファインタニング技術の進歩を目的とした広範な研究を提案する。
一般的に採用されているLSMには,特定の脆弱性を過度に予測する傾向があり,他の脆弱性を検出できない,といった,重要な制限が強調される。
この課題に対処するために、構造化されたルールベースの報酬を通してLLMの振る舞いを導くための最近の政策段階的手法であるグループ相対政策最適化(GRPO)について検討する。
論文 参考訳(メタデータ) (2025-07-03T11:52:45Z) - Weakly-supervised VLM-guided Partial Contrastive Learning for Visual Language Navigation [36.17444261325021]
ビジュアル言語ナビゲーション(VLN)は、エージェントが自然言語命令に基づいて複雑な環境をナビゲートできることに焦点を当てた、Embodied AIの分野における基本的なタスクである。
既存の手法は、VLNシナリオの動的視点と競合する視覚知覚のための事前訓練されたバックボーンモデルに依存している。
Weakly-supervised partial Contrastive Learning (WPCL) は, VLMの微調整を必要とせずに, VLNシナリオの動的視点からオブジェクトを識別する能力を高める手法である。
論文 参考訳(メタデータ) (2025-06-18T11:43:50Z) - Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。
本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。
我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文 参考訳(メタデータ) (2025-04-15T10:41:11Z) - Beyond External Monitors: Enhancing Transparency of Large Language Models for Easier Monitoring [18.837335987273256]
大規模言語モデル(LLM)はますます有能化しつつあるが、その思考と意思決定プロセスのメカニズムはいまだ不明である。
本稿では,LCMの透明性を向上し,モニタが不適切かつ敏感な行動を特定するのに役立つ新しい方法TELLMEを提案する。
論文 参考訳(メタデータ) (2025-02-07T13:25:33Z) - Coalitions of Large Language Models Increase the Robustness of AI Agents [3.216132991084434]
大規模言語モデル(LLM)は、私たちがデジタルシステムと対話する方法を根本的に変えました。
LLMは強力で、いくつかの創発的な特性を示すことができるが、AIエージェントによって実行されるすべてのサブタスクでうまく機能するのに苦労する。
個別のサブタスクで特別性能を示す事前訓練されたLLMの連立系が,単一モデルエージェントの性能に適合するかどうかを評価する。
論文 参考訳(メタデータ) (2024-08-02T16:37:44Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。