Fugu-MT 論文翻訳(概要): Boosting Efficiency in Task-Agnostic Exploration through Causal Knowledge

論文の概要: Boosting Efficiency in Task-Agnostic Exploration through Causal Knowledge

arxiv url: http://arxiv.org/abs/2407.20506v1
Date: Tue, 30 Jul 2024 02:51:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 18:28:58.124401
Title: Boosting Efficiency in Task-Agnostic Exploration through Causal Knowledge
Title（参考訳）: 因果知識によるタスク非依存探索の効率化
Authors: Yupei Yang, Biwei Huang, Shikui Tu, Lei Xu,
Abstract要約: 因果探索は、データ収集とモデルトレーニングの両方に根底にある因果知識を活用する戦略である。我々は,タスクに依存しない強化学習分野における世界モデル学習のサンプル効率と信頼性の向上に焦点をあてる。我々は、因果探索が少ないデータを用いて正確な世界モデルを学ぶのに役立つことを実証し、その収束に関する理論的保証を提供する。
参考スコア（独自算出の注目度）: 15.588014017373048
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The effectiveness of model training heavily relies on the quality of available training resources. However, budget constraints often impose limitations on data collection efforts. To tackle this challenge, we introduce causal exploration in this paper, a strategy that leverages the underlying causal knowledge for both data collection and model training. We, in particular, focus on enhancing the sample efficiency and reliability of the world model learning within the domain of task-agnostic reinforcement learning. During the exploration phase, the agent actively selects actions expected to yield causal insights most beneficial for world model training. Concurrently, the causal knowledge is acquired and incrementally refined with the ongoing collection of data. We demonstrate that causal exploration aids in learning accurate world models using fewer data and provide theoretical guarantees for its convergence. Empirical experiments, on both synthetic data and real-world applications, further validate the benefits of causal exploration.
Abstract（参考訳）: モデルトレーニングの有効性は、利用可能なトレーニングリソースの品質に大きく依存している。しかし、予算の制約は、しばしばデータ収集の取り組みに制限を課します。この課題に対処するために、本論文では、データ収集とモデルトレーニングの両方に根底にある因果知識を活用する戦略である因果探索を紹介する。特に,タスク非依存強化学習分野における世界モデル学習のサンプル効率と信頼性の向上に重点を置いている。調査期間中、エージェントは、世界モデルトレーニングにおいて最も有益な因果的洞察を得るであろう行動を選択する。同時に、因果的知識が取得され、進行中のデータ収集によって漸進的に洗練される。我々は、因果探索が少ないデータを用いて正確な世界モデルを学ぶのに役立つことを実証し、その収束に関する理論的保証を提供する。人工データと実世界の応用に関する実証実験は、因果探索の利点をさらに検証する。

関連論文リスト

Global Convergence of Continual Learning on Non-IID Data [51.99584235667152]
回帰モデルの連続学習のための総合的・包括的理論的解析を行う。一般データ条件下で連続学習のほぼ確実に収束する結果を初めて確立する。
論文参考訳（メタデータ） (2025-03-24T10:06:07Z)
Causal Information Prioritization for Efficient Reinforcement Learning [21.74375718642216]
現在の強化学習(RL)法は、しばしばサンプル効率に悩まされる。最近の因果的アプローチはこの問題に対処することを目的としているが、それらは報酬誘導による状態や行動の因果的理解の基礎的なモデリングを欠いている。本稿では,CIP(Causal Information Prioritization, 因果情報優先化)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2025-02-14T11:44:17Z)
B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners [18.960920426485163]
自己改善は、パフォーマンスを向上させる主要な方法として現れています。本稿では,この反復的プロセスにおいて2つの重要な要因をモニタする手法を提案し,提案する。 B-STaRは、反復的な構成を調整し、探索とエクスプロイトのバランスをとる自己学習推論フレームワークである。
論文参考訳（メタデータ） (2024-12-23T03:58:34Z)
KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [75.78948575957081]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文参考訳（メタデータ） (2024-11-22T08:21:03Z)
Exploring the Precise Dynamics of Single-Layer GAN Models: Leveraging Multi-Feature Discriminators for High-Dimensional Subspace Learning [0.0]
サブスペース学習の観点から,単層GANモデルのトレーニングダイナミクスについて検討する。解析をサブスペース学習の領域にブリッジすることで,従来の手法と比較してGAN法の有効性を体系的に比較する。
論文参考訳（メタデータ） (2024-11-01T10:21:12Z)
Mamba4KT:An Efficient and Effective Mamba-based Knowledge Tracing Model [8.432717706752937]
知識追跡は、過去のパフォーマンスを活用して将来のパフォーマンスを予測することによって、学生の学習を促進する。スマート教育のシナリオにおけるデータ量の増大により、知識追跡モデルの時間と空間消費の観点からも、これは課題となる。 Mamba4KTは知識追跡の効率化と資源利用を初めて検討した。
論文参考訳（メタデータ） (2024-05-26T12:26:03Z)
Collaborative Knowledge Infusion for Low-resource Stance Detection [83.88515573352795]
姿勢検出モデルを支援するために、ターゲット関連の知識がしばしば必要である。低リソース姿勢検出タスクに対する協調的知識注入手法を提案する。
論文参考訳（メタデータ） (2024-03-28T08:32:14Z)
Learning Objective-Specific Active Learning Strategies with Attentive Neural Processes [72.75421975804132]
学びアクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。能動学習問題の対称性と独立性を利用した新しい分類法を提案する。私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文参考訳（メタデータ） (2023-09-11T14:16:37Z)
Thrust: Adaptively Propels Large Language Models with External Knowledge [58.72867916604562]
大規模事前学習言語モデル(PTLM)は、モデルパラメータの豊富な知識を符号化する。 PTLMの固有の知識は不透明または静的であり、外部の知識を必要とする。本稿では,外部知識のインスタンスレベル適応推進(IAPEK)を提案する。
論文参考訳（メタデータ） (2023-07-19T20:16:46Z)
GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文参考訳（メタデータ） (2023-02-16T16:45:36Z)
Evaluation of Induced Expert Knowledge in Causal Structure Learning by NOTEARS [1.5469452301122175]
非パラメトリックNOTEARSモデルの定式化に使用される追加制約の形で、専門家の知識が因果関係に与える影響について検討する。その結果, (i) NOTEARSモデルの誤りを正す知識は, 統計的に有意な改善をもたらすこと, (ii) アクティブエッジに対する制約は, 非アクティブエッジよりも因果発見に肯定的な影響を与えること, (iii) 意外なことに, (iii) 誘導された知識は, 平均的な不正確なアクティブエッジおよび/または非アクティブエッジに対して予想以上に正確でないことが判明した。
論文参考訳（メタデータ） (2023-01-04T20:39:39Z)
Improving Sample Efficiency of Deep Learning Models in Electricity Market [0.41998444721319217]
我々は,サンプルの効率を向上させるため,知識強化トレーニング(KAT)という一般的なフレームワークを提案する。本稿では,いくつかの合成データを生成する新しいデータ拡張手法を提案する。現代の学習理論は, 効果的な予測誤差フィードバック, 信頼損失関数, リッチ勾配雑音の観点から, 提案手法の有効性を実証している。
論文参考訳（メタデータ） (2022-10-11T16:35:13Z)
Causal Reinforcement Learning using Observational and Interventional Data [14.856472820492364]
環境の因果モデルを効率的に学習することは、PMDPで動作するモデルRLエージェントの重要な課題である。学習エージェントが環境と直接対話することでオンライン体験を収集できるシナリオを考察する。オンラインとオフラインのエクスペリエンスは、因果モデルを学ぶために安全に組み合わせられるか?
論文参考訳（メタデータ） (2021-06-28T06:58:20Z)
Accurate and Robust Feature Importance Estimation under Distribution Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2020-09-30T05:29:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。