Fugu-MT 論文翻訳(概要): CEIL: Generalized Contextual Imitation Learning

論文の概要: CEIL: Generalized Contextual Imitation Learning

arxiv url: http://arxiv.org/abs/2306.14534v1
Date: Mon, 26 Jun 2023 09:18:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-27 14:14:16.201088
Title: CEIL: Generalized Contextual Imitation Learning
Title（参考訳）: CEIL: 一般化文脈模倣学習
Authors: Jinxin Liu, Li He, Yachen Kang, Zifeng Zhuang, Donglin Wang, Huazhe Xu
Abstract要約: textbfConttextbfExtual textbfImitation textbfLearning(CEIL)を提案する。後視情報マッチングの定式化にインスパイアされて,後視埋め込み関数をコンテキストポリシーとともに明示的に学習することでCEILを導出する。 CEILは、ほとんどのオンラインILタスクにおいてよりサンプリング効率が高く、オフラインタスクにおいてより良い、または競争的なパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 26.885320069350076
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present \textbf{C}ont\textbf{E}xtual \textbf{I}mitation \textbf{L}earning~(CEIL), a general and broadly applicable algorithm for imitation learning (IL). Inspired by the formulation of hindsight information matching, we derive CEIL by explicitly learning a hindsight embedding function together with a contextual policy using the hindsight embeddings. To achieve the expert matching objective for IL, we advocate for optimizing a contextual variable such that it biases the contextual policy towards mimicking expert behaviors. Beyond the typical learning from demonstrations (LfD) setting, CEIL is a generalist that can be effectively applied to multiple settings including: 1)~learning from observations (LfO), 2)~offline IL, 3)~cross-domain IL (mismatched experts), and 4) one-shot IL settings. Empirically, we evaluate CEIL on the popular MuJoCo tasks (online) and the D4RL dataset (offline). Compared to prior state-of-the-art baselines, we show that CEIL is more sample-efficient in most online IL tasks and achieves better or competitive performances in offline tasks.
Abstract（参考訳）: 本稿では、模倣学習(IL)のための汎用かつ広く適用可能なアルゴリズムである「textbf{C}ont\textbf{E}xtual \textbf{I}mitation \textbf{L}earning~(CEIL)を提案する。後視情報マッチングの定式化に触発されて,後視埋め込み関数を,後視埋め込みを用いたコンテキストポリシーとともに明示的に学習することでCEILを導出する。 ILの専門的マッチング目的を達成するため,専門家の行動を模倣する文脈的ポリシーに偏りが生じるような文脈的変数の最適化を提唱する。デモ(LfD)設定からの一般的な学習以外にも、CEILは、1) ～観測(LfO)から学ぶこと、2) ～オフラインIL、3) クロスドメインIL(ミスマッチした専門家)、および4) ワンショットIL設定など、複数の設定に効果的に適用できるジェネリストである。実験により,一般的な MuJoCo タスク (オンライン) および D4RL データセット (オフライン) 上でCEIL を評価した。従来の最先端のベースラインと比較すると、CEILはオンラインのほとんどのILタスクではサンプリング効率が良く、オフラインタスクではより良いパフォーマンスや競争性能が得られる。

関連論文リスト

Benchmarking and Rethinking Knowledge Editing for Large Language Models [34.80161437154527]
知識編集は,Large Language Models (LLM)内での組み込み知識の更新を目的としている。パラメータ修正や外部メモリ統合といった既存のアプローチは、しばしば不整合評価目標や実験的な設定に悩まされる。本研究は、現在の知識編集手法の限界に対する新たな洞察を提供し、より堅牢な代替手段としてコンテキストベースの推論の可能性を強調する。
論文参考訳（メタデータ） (2025-05-24T13:32:03Z)
RALLRec+: Retrieval Augmented Large Language Model Recommendation with Reasoning [22.495874056980824]
本稿では,Representation Learning and textbfReasoning empowered search-textbfAugmented textbfLarge textbfLanguage model textbfRecommendation (RALLRec+)を提案する。
論文参考訳（メタデータ） (2025-03-26T11:03:34Z)
DesCLIP: Robust Continual Adaptation via General Attribute Descriptions for Pretrained Vision-Language Models [13.917530818500481]
視覚言語モデル(VLM)の継続的な適応は、下流タスクやデータセットの拡張に漸進的に適応するために、モーダルな事前訓練された知識を活用することに焦点を当てている。既存の研究はしばしば、一般的な知識と専門知識の潜伏した関係を見越して、下流のタスクで特定のクラステキストと視覚的特徴を結びつけることに焦点を当てている。汎用属性(GA)記述を利用して,特定のクラスオブジェクトの理解を導くDesCLIPを提案する。
論文参考訳（メタデータ） (2025-02-02T01:06:02Z)
OLLIE: Imitation Learning from Offline Pretraining to Online Finetuning [40.070791824270266]
本研究では,静的な実演データから模倣ポリシーを事前学習し,高速な微調整を行うオフライン・オンライン・イミテーション学習(IL)について検討する。我々は, ほぼ専門的なポリシーを同時に学習する, $textttOLLIE$ という原則付きオフライン IL 手法を提案する。経験的に、$textttOLLIE$は、$textbf20$チャレンジタスクのベースラインメソッドを一貫して大幅に上回ります。
論文参考訳（メタデータ） (2024-05-24T04:57:25Z)
Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。 GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-21T11:59:36Z)
CELA: Cost-Efficient Language Model Alignment for CTR Prediction [71.85120354973073]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。 CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文参考訳（メタデータ） (2024-05-17T07:43:25Z)
LEARN: Knowledge Adaptation from Large Language Model to Recommendation for Practical Industrial Application [54.984348122105516]
Llm-driven knowlEdge Adaptive RecommeNdation (LEARN)フレームワークは、オープンワールドの知識と協調的な知識をシナジする。オープンワールドの知識と協調的な知識を相乗化するLlm-driven knowlEdge Adaptive RecommeNdation (LEARN) フレームワークを提案する。
論文参考訳（メタデータ） (2024-05-07T04:00:30Z)
Conditional Prototype Rectification Prompt Learning [32.533844163120875]
本稿では, 基本事例のバイアスを補正し, 限られたデータを効果的に拡張するための, CPR(Prototype Rectification Prompt Learning)手法を提案する。 CPRは、いくつかのショット分類とベース・ツー・ニューな一般化タスクの両方において最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-04-15T15:43:52Z)
Is Inverse Reinforcement Learning Harder than Standard Reinforcement Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文参考訳（メタデータ） (2023-11-29T00:09:01Z)
Realistic Unsupervised CLIP Fine-tuning with Universal Entropy Optimization [101.08992036691673]
本稿では,未知のクラスにおける配布外サンプルの存在を考慮し,教師なしの微調整シナリオについて考察する。特に,分布外検出と既知のクラスに関連するインスタンスの認識を同時に強化することに注力する。我々はUniversal Entropy Optimization(UEO)と呼ばれるシンプルで効率的で効果的なアプローチを提案する。
論文参考訳（メタデータ） (2023-08-24T16:47:17Z)
ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。 ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文参考訳（メタデータ） (2023-03-09T06:24:50Z)
SMODICE: Versatile Offline Imitation Learning via State Occupancy Matching [31.400457068128585]
State Matching Offline Distribution Correction Estimation (SMODICE)は、オフライン模倣学習(IL)のための新しい汎用アルゴリズムである。その結果,SMODICEは,(i)観測からの模倣(ifO),(ii)動的あるいは形態的にミスマッチした専門家によるifO,(iii)実例に基づく強化学習の3つのオフラインIL設定に効果的に適用できることが示唆された。
論文参考訳（メタデータ） (2022-02-04T23:25:03Z)
Mitigating Covariate Shift in Imitation Learning via Offline Data Without Great Coverage [27.122391441921664]
本稿では、エージェントがオンライン環境の相互作用を伴わずに専門家の実証者を模倣することを学習するオフラインImitation Learning(IL)について研究する。その代わり、学習者は、潜在的に未熟な行動ポリシーから状態-動作-次の状態遷移の静的なオフラインデータセットを提示される。オフラインデータ(MILO)からモデルベースのILを導入し,理論上も現実的にも,オフラインのIL問題を効率的に解決する。
論文参考訳（メタデータ） (2021-06-06T18:31:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。