論文の概要: CoMI-IRL: Contrastive Multi-Intention Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.07496v1
- Date: Sat, 07 Feb 2026 11:14:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.653481
- Title: CoMI-IRL: Contrastive Multi-Intention Inverse Reinforcement Learning
- Title(参考訳): CoMI-IRL: 対照的な多目的逆強化学習
- Authors: Antonio Mone, Frans A. Oliehoek, Luciano Cavalcante Siebert,
- Abstract要約: 逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を推論する。
最近のMI-IRLは、カップルの行動クラスタリングと報酬学習にアプローチしているが、通常は真の行動モードの数に関する事前知識を必要とする。
本稿では、下流の報酬学習から行動表現とクラスタリングを分離するトランスフォーマーベースの非教師なしフレームワークであるContrastive Multi-Intention IRL(CoMI-IRL)を提案する。
- 参考スコア(独自算出の注目度): 9.508688798968809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse Reinforcement Learning (IRL) seeks to infer reward functions from expert demonstrations. When demonstrations originate from multiple experts with different intentions, the problem is known as Multi-Intention IRL (MI-IRL). Recent deep generative MI-IRL approaches couple behavior clustering and reward learning, but typically require prior knowledge of the number of true behavioral modes $K^*$. This reliance on expert knowledge limits their adaptability to new behaviors, and only enables analysis related to the learned rewards, and not across the behavior modes used to train them. We propose Contrastive Multi-Intention IRL (CoMI-IRL), a transformer-based unsupervised framework that decouples behavior representation and clustering from downstream reward learning. Our experiments show that CoMI-IRL outperforms existing approaches without a priori knowledge of $K^*$ or labels, while allowing for visual interpretation of behavior relationships and adaptation to unseen behavior without full retraining.
- Abstract(参考訳): 逆強化学習(IRL)は、専門家によるデモンストレーションから報酬関数を推論する。
異なる意図を持つ複数の専門家がデモを行う際、問題はMI-IRL(Multi-Intention IRL)と呼ばれる。
最近のMI-IRLは、カップルの行動クラスタリングと報酬学習にアプローチしているが、通常、真の行動モードの数について事前の知識を必要とする。
この専門家の知識への依存は、新しい行動への適応性を制限し、学習された報酬に関する分析のみを可能にする。
本稿では、下流の報酬学習から行動表現とクラスタリングを分離するトランスフォーマーベースの非教師なしフレームワークであるContrastive Multi-Intention IRL(CoMI-IRL)を提案する。
実験の結果,CoMI-IRLは,K^*$やラベルの事前知識のない既存手法よりも優れており,また,行動関係の視覚的解釈や,見知らぬ行動への適応を,フルリトレーニングなしで実現可能であることがわかった。
関連論文リスト
- RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Multi-intention Inverse Q-learning for Interpretable Behavior Representation [12.135423420992334]
逆強化学習(IRL)法は、複雑な行動の基礎となる動物の意図を再構築するのに役立つことが証明されている。
階層型逆Q-ラーニング(HIQL)アルゴリズムのクラスを紹介する。
シミュレーション実験と実際の動物行動データセットにHIQLを適用することで、我々のアプローチは行動予測の現在のベンチマークよりも優れています。
論文 参考訳(メタデータ) (2023-11-23T09:27:08Z) - Multiagent Inverse Reinforcement Learning via Theory of Mind Reasoning [0.0]
我々は,Multiagent Inverse Reinforcement Learning(MIRL)に対する新しいアプローチを提案する。
MIRLは、タスクパフォーマンス中に与えられた各チームの振る舞いの軌跡を導く報酬関数を推論することを目的としている。
シミュレーション2-player search-and-rescue 動作におけるアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-02-20T19:07:42Z) - Active Exploration for Inverse Reinforcement Learning [58.295273181096036]
Inverse Reinforcement Learning (AceIRL) のための新しいIRLアルゴリズムを提案する。
AceIRLは、専門家の報酬関数を素早く学習し、良い政策を特定するために、未知の環境と専門家のポリシーを積極的に探求する。
我々はシミュレーションにおいてAceIRLを実証的に評価し、より単純な探索戦略よりも著しく優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-18T14:45:55Z) - Transferable Reward Learning by Dynamics-Agnostic Discriminator Ensemble [8.857776147129464]
専門家によるデモンストレーションから報酬関数を復元することは、強化学習における根本的な問題である。
本研究では、状態行動と状態のみの報酬関数の両方を学習できる動的非依存型識別器・アンサンブル報酬学習法を提案する。
論文 参考訳(メタデータ) (2022-06-01T05:16:39Z) - Context-Hierarchy Inverse Reinforcement Learning [30.71220625227959]
逆強化学習(IRL)エージェントは、専門家のデモンストレーションを観察し、専門家の根底にある報酬関数を学習することで知的に行動することを学ぶ。
本稿では、コンテキスト階層IRL(CHIRL)を提案する。これは、コンテキストを利用してIRLをスケールアップし、複雑な振る舞いの報酬関数を学習する新しいIRLアルゴリズムである。
CARLAシミュレータにおける大規模自律運転タスクを含むベンチマークタスクの実験は、複雑な報酬関数を持つタスクに対してIRLをスケールアップする有望な結果を示している。
論文 参考訳(メタデータ) (2022-02-25T10:29:05Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。