論文の概要: A Unifying Framework for Causal Imitation Learning with Hidden Confounders
- arxiv url: http://arxiv.org/abs/2502.07656v1
- Date: Tue, 11 Feb 2025 15:43:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:09:12.082496
- Title: A Unifying Framework for Causal Imitation Learning with Hidden Confounders
- Title(参考訳): 隠れた共同設立者との因果模倣学習のための統一フレームワーク
- Authors: Daqian Shao, Thomas Kleine Buening, Marta Kwiatkowska,
- Abstract要約: 因果Imitation Learning(IL)のための汎用的で統一的な枠組みを提案する。
このフレームワークは,専門家が観察した,専門家の方針に影響を与える,(a)専門家のアルゴリズムとILアルゴリズムの両方に隠されたノイズの2種類の隠れた共同設立者を説明する。
本研究では,我々のフレームワークにおける因果的ILは,履歴に依存した政策を学習するための指標として軌道履歴を活用することで,条件運動制限(CMR)の集合に還元できることを示す。
- 参考スコア(独自算出の注目度): 17.34321540867036
- License:
- Abstract: We propose a general and unifying framework for causal Imitation Learning (IL) with hidden confounders that subsumes several existing confounded IL settings from the literature. Our framework accounts for two types of hidden confounders: (a) those observed by the expert, which thus influence the expert's policy, and (b) confounding noise hidden to both the expert and the IL algorithm. For additional flexibility, we also introduce a confounding noise horizon and time-varying expert-observable hidden variables. We show that causal IL in our framework can be reduced to a set of Conditional Moment Restrictions (CMRs) by leveraging trajectory histories as instruments to learn a history-dependent policy. We propose DML-IL, a novel algorithm that uses instrumental variable regression to solve these CMRs and learn a policy. We provide a bound on the imitation gap for DML-IL, which recovers prior results as special cases. Empirical evaluation on a toy environment with continues state-action spaces and multiple Mujoco tasks demonstrate that DML-IL outperforms state-of-the-art causal IL algorithms.
- Abstract(参考訳): 本稿では,本文献から既存のIL設定を仮定した,因果Imitation Learning(IL)の汎用的統一フレームワークを提案する。
私たちのフレームワークには、隠れた共同創設者のタイプが2つあります。
(a)専門家の観察するもので、専門家の方針に影響を及ぼすもの
b) 専門家とILアルゴリズムの両方に隠されたノイズを発生させる。
さらなる柔軟性を得るためには、ノイズの地平線と、時間によって異なる専門家が観測可能な隠れ変数も導入する。
本研究では,我々のフレームワークにおける因果的ILは,履歴に依存した政策を学習するための指標として軌道履歴を活用することで,条件運動制限(CMR)の集合に還元できることを示す。
そこで我々は,これらのCMRを解決するために器楽変数回帰を用いた新しいアルゴリズムDML-ILを提案する。
本稿では, DML-IL の模倣ギャップを限定し, 先行結果を特殊ケースとして再現する。
DML-ILが最先端の因果ILアルゴリズムより優れていることを示す。
関連論文リスト
- Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とLLMのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - Learning vs Retrieval: The Role of In-Context Examples in Regression with Large Language Models [18.983753573277596]
そこで本研究では,内部知識の獲得と学習を併用した,文脈内学習機構の評価フレームワークを提案する。
まず,LLMは実世界の回帰問題を解くことができ,LLMが内部知識を取得する程度を,文脈内から学習する程度に測定する実験を設計することができることを示す。
本稿では,これらのメカニズムが様々な要因によって引き起こされる度合いを詳細に分析する。
論文 参考訳(メタデータ) (2024-09-06T14:46:37Z) - Multi-Source Knowledge Pruning for Retrieval-Augmented Generation: A Benchmark and Empirical Study [46.55831783809377]
大規模言語モデル(LLM)の幻覚を緩和するための効果的なアプローチとして,検索拡張世代(RAG)がますます認識されている。
PruningRAGはマルチグラニュラリティ・プルーニング・ストラテジーを用いて,関連コンテキストをより効果的に統合し,誤った情報に対するネガティブな影響を軽減するためのプラグアンドプレイRAGフレームワークである。
論文 参考訳(メタデータ) (2024-09-03T03:31:37Z) - Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
本稿では,自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
これらの課題に対処するため、我々は自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - Enhancing Noise Robustness of Retrieval-Augmented Language Models with Adaptive Adversarial Training [39.21885486667879]
大型言語モデル(LLM)は、幻覚、時代遅れの知識、追跡不能な推論プロセスなどの課題に遭遇する重大な能力を示す。
Retrieval-augmented Generation(RAG)は、これらの課題を軽減するために、外部データベースからの知識を統合する、有望なソリューションとして登場した。
本稿では,RAAT(Retrieval-augmented Adaptive Adrial Training)として知られる新しいRAGアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-31T16:24:53Z) - ActiveRAG: Autonomously Knowledge Assimilation and Accommodation through Retrieval-Augmented Agents [49.30553350788524]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)が外部知識を活用することを可能にする。
既存のRAGモデルは、LLMを受動的情報受信者として扱うことが多い。
人間の学習行動を模倣するマルチエージェントフレームワークであるActiveRAGを紹介する。
論文 参考訳(メタデータ) (2024-02-21T06:04:53Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Causal Imitation Learning under Temporally Correlated Noise [39.4969161422156]
我々は,専門家行動における時間的相関ノイズによって劣化したポリシーデータから模倣学習を行うアルゴリズムを開発した。
特に,シミュレータへのアクセスを利用可能な生成モデルフレーバー(DoubIL)と,完全にオフラインで実行できるゲーム理論フレーバー(ResiduIL)の2つの手法を提案する。
論文 参考訳(メタデータ) (2022-02-02T22:33:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。