論文の概要: Multimodal Policy Internalization for Conversational Agents
- arxiv url: http://arxiv.org/abs/2510.09474v1
- Date: Fri, 10 Oct 2025 15:28:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.319892
- Title: Multimodal Policy Internalization for Conversational Agents
- Title(参考訳): 対話エージェントのためのマルチモーダルポリシー内部化
- Authors: Zhenhailong Wang, Jiateng Liu, Amin Fazel, Ritesh Sarkhel, Xing Fan, Xiang Li, Chenlei Guo, Heng Ji, Ruhi Sarikaya,
- Abstract要約: マルチモーダルポリシー内部化(MPI)は、推論集約型マルチモーダルポリシーをモデルパラメータに内部化する新しいタスクである。
合成と実世界の意思決定とツール使用タスクにまたがる2つのデータセットを構築します。
TriMPIは、エンドツーエンドの精度、一般化、ロバスト性において顕著な向上を実現している。
- 参考スコア(独自算出の注目度): 48.11601444262434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern conversational agents like ChatGPT and Alexa+ rely on predefined policies specifying metadata, response styles, and tool-usage rules. As these LLM-based systems expand to support diverse business and user queries, such policies, often implemented as in-context prompts, are becoming increasingly complex and lengthy, making faithful adherence difficult and imposing large fixed computational costs. With the rise of multimodal agents, policies that govern visual and multimodal behaviors are critical but remain understudied. Prior prompt-compression work mainly shortens task templates and demonstrations, while existing policy-alignment studies focus only on text-based safety rules. We introduce Multimodal Policy Internalization (MPI), a new task that internalizes reasoning-intensive multimodal policies into model parameters, enabling stronger policy-following without including the policy during inference. MPI poses unique data and algorithmic challenges. We build two datasets spanning synthetic and real-world decision-making and tool-using tasks and propose TriMPI, a three-stage training framework. TriMPI first injects policy knowledge via continual pretraining, then performs supervised finetuning, and finally applies PolicyRollout, a GRPO-style reinforcement learning extension that augments rollouts with policy-aware responses for grounded exploration. TriMPI achieves notable gains in end-to-end accuracy, generalization, and robustness to forgetting. As the first work on multimodal policy internalization, we provide datasets, training recipes, and comprehensive evaluations to foster future research. Project page: https://mikewangwzhl.github.io/TriMPI.
- Abstract(参考訳): ChatGPTやAlexa+のような現代の会話エージェントは、メタデータ、レスポンススタイル、ツール使用ルールを指定する事前定義されたポリシーに依存している。
これらのLCMベースのシステムが多様なビジネスやユーザクエリをサポートするように拡張されるにつれて、コンテキスト内のプロンプトとして実装されるようなポリシーはますます複雑で長くなり、忠実な執着が難しくなり、大きな固定的な計算コストがもたらされる。
マルチモーダルエージェントの台頭により、視覚的およびマルチモーダルな振る舞いを管理する政策は批判的であるが、未検討のままである。
従来のプロンプト圧縮作業は主にタスクテンプレートとデモを短縮するが、既存のポリシーアライメント研究はテキストベースの安全ルールのみに焦点を当てている。
モデルパラメータに推論集約的なマルチモーダルポリシーを内包する新しいタスクであるマルチモーダルポリシー内部化(MPI)を導入し、推論中にポリシーを含めることなく、より強力なポリシーフォローを可能にする。
MPIは独自のデータとアルゴリズムの課題を提起する。
合成および実世界の意思決定とツール使用タスクにまたがる2つのデータセットを構築し、3段階のトレーニングフレームワークであるTriMPIを提案する。
TriMPIは、まず連続的な事前訓練を通じて政策知識を注入し、その後、監督された微調整を行い、最後に、政策対応の反応を付加したGRPOスタイルの強化学習拡張であるPhysyRolloutを適用した。
TriMPIは、エンド・ツー・エンドの精度、一般化、そして忘れることへの堅牢性において顕著な向上を実現している。
マルチモーダルなポリシーの内在化に関する最初の研究として、我々は、将来の研究を促進するためにデータセット、トレーニングレシピ、包括的な評価を提供する。
プロジェクトページ: https://mikewangwzhl.github.io/TriMPI。
関連論文リスト
- Discovering Interpretable Programmatic Policies via Multimodal LLM-assisted Evolutionary Search [21.02398143073197]
解釈可能性と高い性能は、特に安全クリティカルなタスクにおいて、制御ポリシーを設計する上で必須の目標である。
本研究は,MLES (Multimodal Large Language Model-Assisted Search) と呼ばれる,プログラム型ポリシー発見のための新しいアプローチを導入する。
MLESはマルチモーダルな大言語モデルをポリシージェネレータとして利用し、自動ポリシー最適化のための進化的メカニズムと組み合わせている。
論文 参考訳(メタデータ) (2025-08-07T14:24:03Z) - Learning Long-Context Diffusion Policies via Past-Token Prediction [48.86967836229684]
本稿では,過去の情報の保持を明示的に規則化する代替手法を提案する。
本稿では,過去の行動トークンの予測方法を学ぶための補助的タスクである過去トークン予測について紹介する。
4つの実世界と6つのシミュレートされたタスクを対象とした実験により,提案手法は長文拡散政策の性能を3倍に向上し,政策訓練を10倍以上高速化することを示した。
論文 参考訳(メタデータ) (2025-05-14T17:00:47Z) - Simulation-Free Hierarchical Latent Policy Planning for Proactive Dialogues [31.92843134331582]
本稿では,新たな対話政策計画フレームワークLDPPを紹介する。
対話記録のマイニングポリシから学習ポリシ計画まで,プロセスを完全に自動化する。
実験により,LDPPは2つの前向きシナリオにおいて既存手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-12-19T07:06:01Z) - Residual Q-Learning: Offline and Online Policy Customization without
Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。
政策カスタマイズと呼ばれる新しい問題設定を定式化する。
本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文 参考訳(メタデータ) (2023-06-15T22:01:19Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Continuous Action Reinforcement Learning from a Mixture of Interpretable
Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。
この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文 参考訳(メタデータ) (2020-06-10T16:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。