論文の概要: Capability Conditioned Scaffolding for Professional Human LLM Collaboration
- arxiv url: http://arxiv.org/abs/2605.15404v1
- Date: Thu, 14 May 2026 20:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.098067
- Title: Capability Conditioned Scaffolding for Professional Human LLM Collaboration
- Title(参考訳): プロフェッショナルなLLMコラボレーションのための機能条件付きスキャフォールディング
- Authors: Sen Yang, Yinglei Ma,
- Abstract要約: 私たちは、専門知識を強力で混合的で弱いドメインに分割するタイプドフレームワーク、Capability Conditioned Scaffoldingを紹介します。
パイロット評価では、プロファイルスワップ下のカテゴリー反転や混合ドメインリスクゾーンの選択的活性化など、一貫したプロファイル条件付き介入行動を示す。
これらの結果は、足場を認識する能力は、スタイリスティックなパーソナライゼーションを超えて、より信頼性の高い専門家のAIコラボレーションを支援することを示唆している。
- 参考スコア(独自算出の注目度): 2.8957361395642853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model personalization typically adapts outputs to user preferences and style but does not account for differences in user evaluation capacity across domains of expertise. This limitation can encourage Professional Domain Drift, where users rely on AI generated reasoning in domains they cannot reliably evaluate. We introduce Capability Conditioned Scaffolding, a typed framework that partitions expertise into strong, mixed, and weak domains and conditions intervention behavior on structured capability profiles. A pilot evaluation across multiple MMLU subsets and four LLM substrates shows consistent profile conditioned intervention behavior, including categorical inversion under profile swapping and selective activation in mixed domain risk zones. These findings suggest that capability aware scaffolding can support more reliable professional human AI collaboration beyond stylistic personalization.
- Abstract(参考訳): 大規模言語モデルのパーソナライズは通常、アウトプットをユーザの好みやスタイルに適応させるが、専門分野間でのユーザ評価能力の違いは考慮しない。
この制限は、ユーザーが確実に評価できないドメインでAI生成された推論に依存するプロのドメインドリフトを促進することができる。
このフレームワークは、専門知識を強い、混ざり合った、弱いドメインに分割し、構造化された機能プロファイルに対する条件介入の振る舞いを記述します。
複数のMMLUサブセットと4つのLLM基板のパイロット評価は、プロファイルスワップ下のカテゴリー反転や混合ドメインリスクゾーンの選択的活性化など、一貫したプロファイル条件付き介入挙動を示す。
これらの結果は、足場を認識する能力は、スタイリスティックなパーソナライゼーションを超えて、より信頼性の高い専門家のAIコラボレーションを支援することを示唆している。
関連論文リスト
- CapTrack: Multifaceted Evaluation of Forgetting in LLM Post-Training [48.70704477452434]
textbfCapTrackは,大規模言語モデルにおける忘れを解析する機能中心のフレームワークである。
我々は、ポストトレーニングアルゴリズム、ドメイン、モデルファミリーにまたがる大規模な実証的研究を行う。
私たちは、忘れることがパラメトリックな知識を超えて、頑健さとデフォルトの振る舞いに顕著なドリフトがあることに気付きました。
論文 参考訳(メタデータ) (2026-02-19T09:46:24Z) - Scalable Delphi: Large Language Models for Structured Risk Estimation [43.395199275016665]
本研究では,Large Language Models (LLMs) が,構造化専門家の誘引にスケーラブルなプロキシとして機能するかどうかを検討する。
対象量は通常観測不可能であるため,必要な条件に基づいて評価フレームワークを開発する。
我々は,AIによるサイバーセキュリティリスクの領域において,3つの能力ベンチマークと独立した人間によるライセンス研究を用いて評価を行った。
論文 参考訳(メタデータ) (2026-02-09T16:52:03Z) - CARE-Bench: A Benchmark of Diverse Client Simulations Guided by Expert Principles for Evaluating LLMs in Psychological Counseling [44.86705916946909]
動的かつインタラクティブな自動ベンチマークである textbfCARE-Bench を導入する。
現実世界のカウンセリングケースから派生した多様なクライアントプロファイルに基づいて構築され、専門家のガイドラインに従ってシミュレートされる。
CARE-Benchは、確立された心理的尺度に基づく多次元のパフォーマンス評価を提供する。
論文 参考訳(メタデータ) (2025-11-12T15:19:44Z) - Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It [81.50711040539566]
現在の大規模言語モデル(LLM)開発は、タスク解決と優先順位調整を別の課題として扱う。
静的ベンチマークを対話型パーソナライズタスクに変換する評価手法であるPreFDISCOを紹介する。
我々のフレームワークは、ユーザコンテキストに応じて、同じ質問が異なる推論チェーンを必要とするシナリオを作成します。
論文 参考訳(メタデータ) (2025-09-30T18:55:28Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Graft: Integrating the Domain Knowledge via Efficient Parameter Synergy for MLLMs [56.76586846269894]
MLLM(Multimodal Large Language Models)は、様々な領域で成功している。
その重要性にもかかわらず、ドメイン固有のMLLM間の知識共有の研究はほとんど未調査のままである。
専門家機能のモジュール構成を可能にする統一パラメータ統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-30T15:07:41Z) - Combining Domain and Alignment Vectors to Achieve Better Knowledge-Safety Trade-offs in LLMs [67.27279184423723]
我々は、ドメインとアライメントベクトルを補間し、より安全なドメイン固有モデルを作成する、textscMergeAlignと呼ばれる効率的なマージベースのアライメント手法を導入する。
医学やファイナンスの専門家であるLlama3の変種にtextscMergeAlignを適用することで、ドメイン固有のベンチマークを最小限または全く劣化させることなく、大幅なアライメントの改善が得られる。
論文 参考訳(メタデータ) (2024-11-11T09:32:20Z) - Personalisation within bounds: A risk taxonomy and policy framework for
the alignment of large language models with personalised feedback [11.895749982167375]
大規模言語モデル(LLM)は、幅広いタスクのコンテンツを生成するために使用され、今後数年でより多くの聴衆にリーチするように設定されている。
これにより、モデルが人間の好みと一致し、安全でない、不正確な、有害なアウトプットを発生させないことを保証する必要性が強まる。
マイクロレベルの嗜好学習プロセスを通じてLLMをパーソナライズすると、各ユーザとの整合性が良くなるモデルが得られる。
論文 参考訳(メタデータ) (2023-03-09T17:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。