論文の概要: Compositional Transduction with Latent Analogies for Offline Goal-Conditioned Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.20609v1
- Date: Wed, 20 May 2026 01:54:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.430451
- Title: Compositional Transduction with Latent Analogies for Offline Goal-Conditioned Reinforcement Learning
- Title(参考訳): オフラインゴール・コンディション強化学習のための潜在アナロジーを用いた構成変換
- Authors: Junseok Kim, Dohyeong Kim, Mineui Hong, Songhwai Oh,
- Abstract要約: 構成一般化は、オフラインの目標条件強化学習において、目に見えない目標を達成するために不可欠である。
我々は、タスク内在的な類似を与えられた文脈で構成することにより、アナログ変換を新しい計画として定式化する。
我々は,OGBench操作環境におけるアプローチの有効性を実証的に実証した。
- 参考スコア(独自算出の注目度): 17.14266617553098
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Compositional generalization is essential for reaching unseen goals under novel contextual variations in offline goal-conditioned reinforcement learning (GCRL), where a generalist goal-reaching agent must be learned from limited data. Most prior approaches pursue this via trajectory stitching over temporally contiguous segments, which limits composing behaviors across varying contexts. To overcome this limitation, we formalize analogy transduction as synthesizing new plans by composing task-endogenous analogies with given contexts and propose a novel analogy representation tailored for it. Grounded in our theory, this analogy representation captures what changes under optimal task execution, remains invariant to contextual variations, and is sufficient for optimal goal reaching. We further contend that generalization to unseen analogy-context pairs is a practical obstacle in analogy transduction, and introduce a new approach for offline GCRL that enables analogy transduction beyond seen pairs to unseen combinations. We empirically demonstrate the effectiveness of our approach on OGBench manipulation environments, substantially outperforming prior methods that do not perform analogy transduction. Project page: https://rllab-snu.github.io/projects/CTA/
- Abstract(参考訳): オフライン目標条件強化学習 (GCRL) では, 限定データから一般目標取得エージェントを学習しなければならない。
従来のほとんどのアプローチは、時間的に連続した部分の軌跡を縫い合わせることによってこれを追求しており、様々な文脈における構成行動を制限する。
この制限を克服するために、タスク内在的な類似を与えられた文脈で構成し、新しい計画の合成としてアナログ変換を形式化し、それに適した新しい類似表現を提案する。
この類似表現は、最適タスク実行下での変化を捉え、文脈変化に不変であり、最適なゴールに到達するのに十分である。
さらに、見知らぬ類義語対への一般化は、類義語変換の実践的な障害であり、見つからない組み合わせへの類義語変換を可能にするオフラインGCRLの新しいアプローチを提案する。
我々は,OGBench操作環境におけるアプローチの有効性を実証的に実証し,アナログ変換を行わない先行手法を著しく上回った。
プロジェクトページ: https://rllab-snu.github.io/projects/CTA/
関連論文リスト
- Towards Domain-Generalized Open-Vocabulary Object Detection: A Progressive Domain-invariant Cross-modal Alignment Method [59.30562121800656]
Open-Vocabulary Object Detectionは、新しいカテゴリへの一般化において大きな成功を収めた。
我々は、OVODパラダイムの原則的な見直しを行い、根本的な脆弱性を明らかにする。
PICA(Progressive Domain-invariant Cross-Modal Alignment)を提案する。
論文 参考訳(メタデータ) (2026-03-29T07:39:31Z) - Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [57.19302613163439]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。
本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。
残る技術的課題や倫理的考察も分析する。
論文 参考訳(メタデータ) (2025-06-05T05:42:27Z) - Information Guided Regularization for Fine-tuning Language Models [11.831883526217942]
我々は、よりスムーズな転写学習のために、より外科的な正規化アプローチが存在する必要があると論じる。
モデル正規化の改善と下流一般化のための新しい手法を考案する。
論文 参考訳(メタデータ) (2024-06-20T05:18:37Z) - Recurrent Aligned Network for Generalized Pedestrian Trajectory Prediction [41.000755300574156]
歩行者の軌道予測はコンピュータビジョンとロボット工学において重要な要素である。
従来の研究では、対象領域からの軌道データの一部をモデルに適応させることで、この問題に対処しようと試みてきた。
本稿では、ドメインアライメントによるドメインギャップを最小限に抑えるために、Recurrent Aligned Network(RAN)を導入する。
論文 参考訳(メタデータ) (2024-03-09T06:17:09Z) - Self-supervised Augmentation Consistency for Adapting Semantic
Segmentation [56.91850268635183]
本稿では,実用的かつ高精度な意味セグメンテーションのためのドメイン適応手法を提案する。
私たちは標準データ拡張技術である$-$フォトメトリックノイズ、フリップとスケーリング$-$を採用し、セマンティック予測の一貫性を保証する。
適応後の最先端セグメンテーション精度を大幅に改善し、バックボーンアーキテクチャと適応シナリオの異なる選択に整合性を持たせる。
論文 参考訳(メタデータ) (2021-04-30T21:32:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。