論文の概要: ASPECT:Analogical Semantic Policy Execution via Language Conditioned Transfer
- arxiv url: http://arxiv.org/abs/2604.08355v1
- Date: Thu, 09 Apr 2026 15:21:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.990858
- Title: ASPECT:Analogical Semantic Policy Execution via Language Conditioned Transfer
- Title(参考訳): ASPECT:言語条件による意味的政策の実行
- Authors: Ajsal Shereef Palattuparambil, Thommen George Karimpanal, Santu Rana,
- Abstract要約: 強化学習(RL)エージェントはしばしば、知識を新しいタスクに一般化するのに苦労する。
本稿では,離散潜在変数を自然言語条件に置き換え,より一般化したアプローチを提案する。
提案手法は, 固定圏写像の限界を超えて, 複雑な, 真に新しい類似タスクの広い範囲にわたるゼロショット転送を実現する。
- 参考スコア(独自算出の注目度): 10.492383929472734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) agents often struggle to generalize knowledge to new tasks, even those structurally similar to ones they have mastered. Although recent approaches have attempted to mitigate this issue via zero-shot transfer, they are often constrained by predefined, discrete class systems, limiting their adaptability to novel or compositional task variations. We propose a significantly more generalized approach, replacing discrete latent variables with natural language conditioning via a text-conditioned Variational Autoencoder (VAE). Our core innovation utilizes a Large Language Model (LLM) as a dynamic \textit{semantic operator} at test time. Rather than relying on rigid rules, our agent queries the LLM to semantically remap the description of the current observation to align with the source task. This source-aligned caption conditions the VAE to generate an imagined state compatible with the agent's original training, enabling direct policy reuse. By harnessing the flexible reasoning capabilities of LLMs, our approach achieves zero-shot transfer across a broad spectrum of complex and truly novel analogous tasks, moving beyond the limitations of fixed category mappings. Code and videos are available \href{https://anonymous.4open.science/r/ASPECT-85C3/}{here}.
- Abstract(参考訳): 強化学習(RL)エージェントはしばしば、知識を新しいタスクに一般化するのに苦労する。
近年のアプローチでは、ゼロショット転送によるこの問題の緩和が試みられているが、多くの場合、前もって定義された離散クラスシステムによって制約され、新しいタスクや構成タスクのバリエーションへの適応性が制限されている。
テキスト条件付き変分オートエンコーダ(VAE)を用いて、離散潜在変数を自然言語条件に置き換え、より一般化したアプローチを提案する。
我々の中核的な革新は、テスト時に動的 \textit{semantic operator} としてLarge Language Model (LLM) を利用しています。
厳格なルールに頼るのではなく、我々のエージェントはLLMに問い合わせ、現在の観測結果の記述を意味的に再マップして、ソースタスクと整合させる。
このソースアラインのキャプションは、VAEがエージェントの元々のトレーニングと互換性のある想像上の状態を生成することを条件とし、直接的なポリシーの再利用を可能にした。
LLMの柔軟な推論能力を利用することで、固定圏写像の限界を超えて、より広範に複雑で真に新しい類似したタスクをゼロショット転送する。
コードとビデオは \href{https://anonymous.4open.science/r/ASPECT-85C3/}{here} で公開されている。
関連論文リスト
- Semantically Labelled Automata for Multi-Task Reinforcement Learning with LTL Instructions [61.479946958462754]
エージェントが単一のユニバーサルポリシーを学習する環境であるマルチタスク強化学習(RL)について検討する。
本稿では,新世代の意味翻訳を利用したタスク埋め込み手法を提案する。
論文 参考訳(メタデータ) (2026-02-06T14:46:27Z) - Policy-Conditioned Policies for Multi-Agent Task Solving [53.67744322553693]
本研究では,ポリシーを人間の解釈可能なソースコードとして表現することでギャップを埋めるパラダイムシフトを提案する。
本研究では,Large Language Models (LLM) を近似インタプリタとして利用することにより,学習問題を再構築する。
我々はこのプロセスを,ポリシーコードをテキスト勾配で最適化するアルゴリズムである TextitProgrammatic Iterated Best Response (PIBR) として定式化する。
論文 参考訳(メタデータ) (2025-12-24T07:42:10Z) - Prompting is not Enough: Exploring Knowledge Integration and Controllable Generation [89.65955788873532]
オープンドメイン質問応答(OpenQA)は自然言語処理(NLP)の基盤である。
我々は,知識統合と制御可能生成を探求し,OpenQAの性能向上を目的としたGenKIという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T08:18:33Z) - Mapping representations in Reinforcement Learning via Semantic Alignment for Zero-Shot Stitching [17.76990521486307]
深層強化学習モデルは、環境の観察やタスク要求に小さな変化があったとしても、一般化に失敗することが多い。
そこで本稿では,視覚的およびタスクのバリエーションを学習したエージェント間での潜伏空間間のマッピングをゼロショットで行う手法を提案する。
背景と作業が変化するCarRacing環境において,ゼロショット縫合性能を実証的に実証した。
論文 参考訳(メタデータ) (2025-02-26T22:06:00Z) - Efficient Transfer Learning for Video-language Foundation Models [13.166348605993292]
テキスト表現と視覚表現のアライメントを高めるために,パラメータ効率のよいマルチモーダルパティッシャ・テンポラル・アダプタ (MSTA) を提案する。
我々は,ゼロショット転送,少数ショット学習,ベース・ツー・ノーベル一般化,完全テンポラル学習という4つの課題にまたがるアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-18T01:25:58Z) - CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。
変分オートエンコーダを用いてクラス条件分布を学習する。
このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:51:28Z) - Integrating LLMs and Decision Transformers for Language Grounded
Generative Quality-Diversity [0.0]
品質多様性(Quality-Diversity)は最適化の一分野であり、強化学習と制御ドメインの問題によく適用される。
本稿では,レパートリーをトラジェクトリの自然言語記述で拡張する大規模言語モデルを提案する。
また、このような生成エージェントの性能を評価するためのLCMベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-25T10:00:06Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。