論文の概要: How to Train Your Advisor: Steering Black-Box LLMs with Advisor Models
- arxiv url: http://arxiv.org/abs/2510.02453v1
- Date: Thu, 02 Oct 2025 18:02:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.113894
- Title: How to Train Your Advisor: Steering Black-Box LLMs with Advisor Models
- Title(参考訳): アドバイザーのトレーニング方法 - アドバイザーモデルによるブラックボックス LLM のステアリング
- Authors: Parth Asawa, Alan Zhu, Matei Zaharia, Alexandros G. Dimakis, Joseph E. Gonzalez,
- Abstract要約: 我々は、強化学習で訓練された軽量なポリシーであるアドバイザモデルを導入し、ブラックボックスモデルにコンテキスト内で自然言語の操舵命令をリアクティブに発行する。
アドバイザは、入力とモデルの間に位置する第2の小さなモデルであり、環境からの報酬信号を使用して、インスタンスごとの振る舞いを形作る。
- 参考スコア(独自算出の注目度): 81.20441679355486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models are increasingly deployed as black-box services, where model weights cannot be modified and customization is limited to prompting. While static prompt optimization has shown promise, it produces a single fixed prompt that fails to adapt to different inputs, users, or environments. We introduce Advisor Models, lightweight parametric policies trained with reinforcement learning to reactively issue natural language steering instructions in-context to black-box models. The advisor is a second small model that sits between the input and the model, shaping behavior on a per-instance basis using reward signals from the environment. Across multiple domains involving reasoning and personalization, we show that Advisor Models outperform static prompt optimizers, discovering environment dynamics and improving downstream task performance. We also demonstrate the generalizability of advisors by transferring them across black-box models, as well as the framework's ability to achieve specialization while retaining robustness to out-of-distribution inputs. Viewed more broadly, Advisor Models provide a learnable interface to black-box systems where the advisor acts as a parametric, environment-specific memory. We argue that dynamic optimization of black-box models via Advisor Models is a promising direction for enabling personalization and environment-adaptable AI with frontier-level capabilities.
- Abstract(参考訳): ファンデーションモデルはブラックボックスサービスとして展開され、モデルウェイトは変更できず、カスタマイズはプロンプトに限られる。
静的プロンプト最適化は将来性を示しているが、異なる入力やユーザ、環境に適応できない単一の固定プロンプトを生成する。
我々は、強化学習で訓練された軽量パラメトリック・ポリシーであるアドバイザ・モデルを導入し、ブラックボックス・モデルに対する自然言語の操舵命令を動的に発行する。
アドバイザは、入力とモデルの間に位置する第2の小さなモデルであり、環境からの報酬信号を使用して、インスタンスごとの振る舞いを形作る。
推論とパーソナライゼーションを含む複数のドメインにわたって、アドバイザモデルが静的なプロンプトオプティマイザを上回り、環境のダイナミクスを発見し、下流のタスク性能を改善していることを示す。
また,ブラックボックスモデルにまたがってアドバイザの一般化可能性を示すとともに,アウト・オブ・ディストリビューション・インプットに対する堅牢性を保ちながら,特殊化を実現するフレームワークの能力を示す。
より広く見れば、アドバイザモデルは、アドバイザーがパラメトリックで環境固有のメモリとして機能するブラックボックスシステムへの学習可能なインターフェースを提供する。
我々は、アドバイザモデルによるブラックボックスモデルの動的最適化が、フロンティアレベルの機能を備えたパーソナライズと環境適応型AIを実現するための有望な方向であると主張している。
関連論文リスト
- Enhancing ML Models Interpretability for Credit Scoring [2.0073274354053736]
本稿では,ブラックボックスモデルから特徴選択を導出するポストホックな解釈と,予測能力と透明性を両立するガラスボックスモデルを訓練するハイブリッドアプローチを提案する。
Lending Clubのデータセットを用いて、ベンチマークブラックボックスモデルに匹敵する性能を達成し、わずか10の機能しか使用していないことを実証した。
論文 参考訳(メタデータ) (2025-09-14T18:47:38Z) - Analyzing Finetuning Representation Shift for Multimodal LLMs Steering [56.710375516257876]
隠れた状態を解釈可能な視覚的概念とテキスト的概念にマッピングすることを提案する。
これにより、オリジナルモデルや微調整モデルからのシフトなど、特定のセマンティックダイナミクスをより効率的に比較することが可能になります。
また,これらの変化を捉えるためにシフトベクトルを用いることを実証する。
論文 参考訳(メタデータ) (2025-01-06T13:37:13Z) - ISR-DPO: Aligning Large Multimodal Models for Videos by Iterative Self-Retrospective DPO [36.69910114305134]
我々は、優先モデルを強化するために、反復自己ふりかえり直接選好最適化(ISR-DPO)を提案する。
ISR-DPOは、情報的ビデオ領域に対する自己判断の焦点を強化する。
広範な経験的評価では、ISR-DPOは芸術の状態を著しく上回る。
論文 参考訳(メタデータ) (2024-06-17T07:33:30Z) - Black-Box Tuning of Vision-Language Models with Effective Gradient
Approximation [71.21346469382821]
ブラックボックスモデルに対するテキストプロンプト最適化と出力特徴適応のための協調ブラックボックスチューニング(CBBT)を導入する。
CBBTは11のダウンストリームベンチマークで広範囲に評価され、既存のブラックボックスVL適応法と比較して顕著に改善されている。
論文 参考訳(メタデータ) (2023-12-26T06:31:28Z) - RecExplainer: Aligning Large Language Models for Explaining Recommendation Models [50.74181089742969]
大規模言語モデル (LLM) は、理解、推論、指導において顕著な知性を示した。
本稿では, ブラックボックスレコメンデータモデルを説明するために, LLM を代理モデルとして利用することについて検討する。
効果的なアライメントを容易にするために,行動アライメント,意図アライメント,ハイブリッドアライメントという3つの手法を導入する。
論文 参考訳(メタデータ) (2023-11-18T03:05:43Z) - Context-Adaptive Deep Neural Networks via Bridge-Mode Connectivity [2.294014185517203]
文脈依存型モデルを学習するための新しい手法を開発した。
複数のレンズを用いた分類タスクにおける文脈定義について検討する。
実験では、モデルの性能が各シナリオのコンテキストに合わせてうまく調整できることが示されている。
論文 参考訳(メタデータ) (2022-11-28T15:21:54Z) - Design of Dynamic Experiments for Black-Box Model Discrimination [72.2414939419588]
選択したいような動的モデル判別の設定を考えてみましょう。 (i) 最高のメカニスティックな時間変化モデルと (ii) 最高のモデルパラメータ推定値です。
勾配情報にアクセス可能な競合する力学モデルに対しては、既存の手法を拡張し、より広い範囲の問題の不確実性を組み込む。
これらのブラックボックスモデルをガウス過程サロゲートモデルに置き換えることで、モデル識別設定を拡張して、競合するブラックボックスモデルをさらに取り入れる。
論文 参考訳(メタデータ) (2021-02-07T11:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。