論文の概要: CORE: Code-based Inverse Self-Training Framework with Graph Expansion for Virtual Agents
- arxiv url: http://arxiv.org/abs/2601.02201v1
- Date: Mon, 05 Jan 2026 15:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.241273
- Title: CORE: Code-based Inverse Self-Training Framework with Graph Expansion for Virtual Agents
- Title(参考訳): CORE: 仮想エージェントのためのグラフ拡張を備えたコードベースの逆自己学習フレームワーク
- Authors: Keyu Wang, Bingchen Miao, Wendong Bu, Yu Wu, Juncheng Li, Shengyu Zhang, Wenqiao Zhang, Siliang Tang, Jun Xiao, Yueting Zhuang,
- Abstract要約: グラフ拡張を用いたコードベースの逆自己学習フレームワークであるCOREを提案する。
COREは模倣と探索を橋渡しし、行動の多様性を促進する新しいトレーニングフレームワークを提供する。
WebとAndroidプラットフォームの実験では、COREは全体的なパフォーマンスと一般化の両方を著しく改善している。
- 参考スコア(独自算出の注目度): 69.88668127604875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of Multimodal Virtual Agents has made significant progress through the integration of Multimodal Large Language Models. However, mainstream training paradigms face key challenges: Behavior Cloning is simple and effective through imitation but suffers from low behavioral diversity, while Reinforcement Learning is capable of discovering novel strategies through exploration but heavily relies on manually designed reward functions. To address the conflict between these two methods, we present CORE, a Code-based Inverse Self-Training Framework with Graph Expansion that bridges imitation and exploration, offering a novel training framework that promotes behavioral diversity while eliminating the reliance on manually reward design. Specifically, we introduce Semantic Code Abstraction to automatically infers reward functions from expert demonstrations without manual design. The inferred reward function, referred to as the Label Function, is executable code that verifies one key step within a task. Building on this, we propose Strategy Graph Expansion to enhance in-domain behavioral diversity, which constructs a multi-path graph called Strategy Graph that captures diverse valid solutions beyond expert demonstrations. Furthermore, we introduce Trajectory-Guided Extrapolation, which enriches out-of-domain behavioral diversity by utilizing both successful and failed trajectories to expand the task space. Experiments on Web and Android platforms demonstrate that CORE significantly improves both overall performance and generalization, highlighting its potential as a robust and generalizable training paradigm for building powerful virtual agents.
- Abstract(参考訳): マルチモーダル仮想エージェントの開発は,多モーダル大規模言語モデルの統合によって大きな進歩を遂げた。
しかし、主流のトレーニングパラダイムは、重要な課題に直面している: 行動のクローンは模倣によってシンプルで効果的であるが、行動の多様性が低いのに対して、強化学習は探索を通じて新しい戦略を発見することができるが、手動で設計された報酬関数に強く依存する。
この2つの手法の対立に対処するため,コードベースの逆自己学習フレームワークであるCOREを提案する。このフレームワークは模倣と探索を橋渡しし,手作業による報酬設計への依存を排除しつつ,行動の多様性を促進する新しいトレーニングフレームワークを提供する。
具体的には、手動設計なしで専門家によるデモンストレーションから報酬関数を自動的に推論するセマンティックコード抽象化を導入する。
推論報酬関数(英: inferred reward function)は、タスク内の1つの重要なステップを検証する実行可能なコードである。
そこで我々は、ドメイン内の振る舞いの多様性を高めるためのStrategy Graph Expansionを提案し、Strategy Graphと呼ばれるマルチパスグラフを構築し、専門家による実証以上の多様な有効なソリューションをキャプチャする。
さらに,タスク空間の拡張のために,成功軌道と失敗軌道の両方を活用することにより,ドメイン外行動の多様性を向上するトラジェクトリガイド外挿法を提案する。
WebとAndroidプラットフォームの実験では、COREは全体的なパフォーマンスと一般化の両方を大幅に改善し、強力な仮想エージェントを構築するための堅牢で汎用的なトレーニングパラダイムとしての可能性を強調している。
関連論文リスト
- Attention-Augmented Inverse Reinforcement Learning with Graph Convolutions for Multi-Agent Task Allocation [0.29998889086656577]
マルチエージェントタスクアロケーション(MATA)は,協調型マルチエージェントシステムにおいて重要な役割を担う。
報酬関数学習とタスク実行効率を高めるために,逆強化学習(IRL)に基づくフレームワークを提案する。
提案手法が広く用いられているマルチエージェント強化学習(MARL)アルゴリズムよりも優れていることを示す実験を行った。
論文 参考訳(メタデータ) (2025-04-07T13:14:45Z) - On Learning Informative Trajectory Embeddings for Imitation, Classification and Regression [19.01804572722833]
実世界のシーケンシャルな意思決定タスクでは、観察された状態-行動軌跡から学ぶことは、模倣、分類、クラスタリングのようなタスクには不可欠である。
本稿では,動的意思決定プロセスにおけるスキルと能力の獲得を目的とした,状態行動軌跡を潜在空間に埋め込む新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T06:52:58Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - ULTRA-DP: Unifying Graph Pre-training with Multi-task Graph Dual Prompt [67.8934749027315]
本稿では,タスク識別と位置識別をGNNに注入する,グラフハイブリッド事前学習のための統合フレームワークを提案する。
また,約$k$-nearest隣人のグループに基づいた,新しい事前学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:11:13Z) - Curricular Subgoals for Inverse Reinforcement Learning [21.038691420095525]
逆強化学習(IRL)は、専門家による実証から報酬関数を再構築し、政策学習を促進することを目的としている。
既存のIRL法は主に、模倣者と専門家の軌跡の違いを最小限に抑えるために、グローバル報酬関数の学習に重点を置いている。
エージェントの模倣を導くために,一タスクを複数の局所的なサブゴールで明示的に切り離す,Curricular Subgoal-based Inverse Reinforcement Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T04:06:41Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。