Fugu-MT 論文翻訳(概要): Leveraging class abstraction for commonsense reinforcement learning via residual policy gradient methods

論文の概要: Leveraging class abstraction for commonsense reinforcement learning via residual policy gradient methods

arxiv url: http://arxiv.org/abs/2201.12126v1
Date: Fri, 28 Jan 2022 14:03:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-31 19:17:10.974033
Title: Leveraging class abstraction for commonsense reinforcement learning via residual policy gradient methods
Title（参考訳）: 残留ポリシー勾配法による共通意味強化学習におけるクラス抽象化の活用
Authors: Niklas H\"opner, Ilaria Tiddi, Herke van Hoof
Abstract要約: 本稿では,オープンソース知識グラフに存在するサブクラス関係を利用して,特定のオブジェクトを抽象化する手法を提案する。そこで我々は,クラス階層内の抽象レベルをまたいだ知識を統合可能な残留ポリシー勾配法を開発した。
参考スコア（独自算出の注目度）: 23.199881381599617
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Enabling reinforcement learning (RL) agents to leverage a knowledge base while learning from experience promises to advance RL in knowledge intensive domains. However, it has proven difficult to leverage knowledge that is not manually tailored to the environment. We propose to use the subclass relationships present in open-source knowledge graphs to abstract away from specific objects. We develop a residual policy gradient method that is able to integrate knowledge across different abstraction levels in the class hierarchy. Our method results in improved sample efficiency and generalisation to unseen objects in commonsense games, but we also investigate failure modes, such as excessive noise in the extracted class knowledge or environments with little class structure.
Abstract（参考訳）: 知識ベースを活用するために強化学習(RL)エージェントを導入し、経験から学習することで、知識集約ドメインにおいてRLを前進させる。しかし、手動で環境に合わせた知識を活用することは困難であることが証明されている。本稿では,オープンソース知識グラフに存在するサブクラス関係を利用して,特定のオブジェクトを抽象化することを提案する。我々は,クラス階層内の異なる抽象レベルにまたがる知識を統合可能な残留ポリシー勾配法を開発した。提案手法は,コモンセンスゲームにおいて,サンプル効率の向上とオブジェクトの一般化を実現するとともに,抽出したクラス知識の過度なノイズや,クラス構造がほとんどない環境など,障害モードについても検討する。

関連論文リスト

KUDA: Knowledge Unlearning by Deviating Representation for Large Language Models [26.418820118903852]
大規模言語モデル(LLM)は、多種多様なコーパスの事前学習を通じて大量の知識を得る。 LLMのアンラーニングは、トレーニングデータにおける機密性、著作権、有害なコンテンツに関連するリスクを減らすための有望なテクニックである。本研究では,LLMの知識レベルでの効果的な学習を実現するために,Deviating representAtion (KUDA) を用いた知識未学習を提案する。
論文参考訳（メタデータ） (2026-02-22T17:16:49Z)
Probing the Knowledge Boundary: An Interactive Agentic Framework for Deep Knowledge Extraction [29.717986496967978]
本稿では,大規模言語モデルの知識を体系的に抽出し,定量化する対話型エージェントフレームワークを提案する。本手法は,異なる粒度で知識を探索する4つの適応探索ポリシーを含む。我々は、より大きなモデルが常により多くの知識を抽出する明確な知識スケーリング法を観察する。
論文参考訳（メタデータ） (2026-02-01T01:43:44Z)
Beyond Superficial Forgetting: Thorough Unlearning through Knowledge Density Estimation and Block Re-insertion [27.526437626781597]
大規模言語モデルに対するブロック再帰(KUnBR)による知識密度誘導学習を提案する。 KUnBRは有害な知識の豊富なレイヤを特定し、再挿入戦略を通じて有害な知識を徹底的に排除する。いくつかのアンラーニングおよび一般機能ベンチマークで実施された実験は、KUnBRが最先端の忘れたパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-11-11T14:12:43Z)
Unveiling Knowledge Utilization Mechanisms in LLM-based Retrieval-Augmented Generation [77.10390725623125]
検索強化世代(RAG)は知識範囲の拡大に広く利用されている。 RAGは、オープンドメインの質問応答のような知識集約的なタスクを約束しているので、複雑なタスクやインテリジェントアシスタントへの幅広い応用は、その実用性をさらに進歩させてきた。本稿では、RAGが内部(パラメトリック)知識と外部(検索)知識を統合する本質的なメカニズムを体系的に検討する。
論文参考訳（メタデータ） (2025-05-17T13:13:13Z)
Knowledge Swapping via Learning and Unlearning [32.73583752121215]
我々は、事前訓練されたモデルの知識を選択的に制御する新しいタスクであるtextbfKnowledge Swappingを紹介する。そこで,本稿では,知識交換タスクをtextitLearning Before Forgetting の戦略でベンチマークする。
論文参考訳（メタデータ） (2025-02-12T02:37:16Z)
Improving Sample Efficiency of Reinforcement Learning with Background Knowledge from Large Language Models [33.504700578933424]
低サンプリング効率は強化学習(RL)の持続的課題である環境の背景知識を抽出するために,大規模言語モデルを利用するフレームワークを導入する。実験により, 下流タスクのスペクトルにおいて, サンプル効率が著しく向上することが確認された。
論文参考訳（メタデータ） (2024-07-04T14:33:47Z)
KEHRL: Learning Knowledge-Enhanced Language Representations with Hierarchical Reinforcement Learning [32.086825891769585]
知識強化事前学習言語モデル(KEPLM)は知識グラフ(KG)から関係トリプルを利用する従来の研究は、知識の強化を2つの独立した操作、すなわち知識注入と知識統合として扱う。本稿では,不正確な知識や無関係な知識の注入を避けるために,知識注入位置の検出と外部知識のモデルへの統合という課題を共同で解決する。
論文参考訳（メタデータ） (2024-06-24T07:32:35Z)
InfuserKI: Enhancing Large Language Models with Knowledge Graphs via Infuser-Guided Knowledge Integration [61.554209059971576]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著なオープンジェネレーション機能を示している。新しい知識を注入すると、以前に獲得した知識を忘れるリスクが生じる。 Infuser-Guided Knowledge Integration フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-18T03:36:26Z)
Building Minimal and Reusable Causal State Abstractions for Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。 CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文参考訳（メタデータ） (2024-01-23T05:43:15Z)
A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文参考訳（メタデータ） (2024-01-02T16:54:58Z)
Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文参考訳（メタデータ） (2023-06-14T13:07:48Z)
Inapplicable Actions Learning for Knowledge Transfer in Reinforcement Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文参考訳（メタデータ） (2022-11-28T17:45:39Z)
Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文参考訳（メタデータ） (2022-10-21T21:59:42Z)
Ontology-enhanced Prompt-tuning for Few-shot Learning [41.51144427728086]
少ないショットラーニングは、限られたサンプル数に基づいて予測を行うことを目的としている。知識グラフやオントロジーライブラリなどの構造化データは、様々なタスクにおける数ショット設定の恩恵を受けるために利用されてきた。
論文参考訳（メタデータ） (2022-01-27T05:41:36Z)
WordCraft: An Environment for Benchmarking Commonsense Agents [107.20421897619002]
我々はLittle Alchemy 2.0をベースとしたRL環境であるWordCraftを提案する。この軽量環境は、現実のセマンティクスにインスパイアされたエンティティとリレーションに基づいて実行され、構築される。
論文参考訳（メタデータ） (2020-07-17T18:40:46Z)
Contextual Policy Transfer in Reinforcement Learning Domains via Deep Mixtures-of-Experts [24.489002406693128]
そこで本稿では,タスクのダイナミクスに関する状態依存的信念を学習するための,新しいミックス・オブ・エキスパートの定式化について紹介する。我々は、このモデルを標準ポリシー再利用フレームワークに組み込む方法を示す。
論文参考訳（メタデータ） (2020-02-29T07:58:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。