論文の概要: Boosting Efficiency in Task-Agnostic Exploration through Causal Knowledge
- arxiv url: http://arxiv.org/abs/2407.20506v1
- Date: Tue, 30 Jul 2024 02:51:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-31 18:28:58.124401
- Title: Boosting Efficiency in Task-Agnostic Exploration through Causal Knowledge
- Title(参考訳): 因果知識によるタスク非依存探索の効率化
- Authors: Yupei Yang, Biwei Huang, Shikui Tu, Lei Xu,
- Abstract要約: 因果探索は、データ収集とモデルトレーニングの両方に根底にある因果知識を活用する戦略である。
我々は,タスクに依存しない強化学習分野における世界モデル学習のサンプル効率と信頼性の向上に焦点をあてる。
我々は、因果探索が少ないデータを用いて正確な世界モデルを学ぶのに役立つことを実証し、その収束に関する理論的保証を提供する。
- 参考スコア(独自算出の注目度): 15.588014017373048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The effectiveness of model training heavily relies on the quality of available training resources. However, budget constraints often impose limitations on data collection efforts. To tackle this challenge, we introduce causal exploration in this paper, a strategy that leverages the underlying causal knowledge for both data collection and model training. We, in particular, focus on enhancing the sample efficiency and reliability of the world model learning within the domain of task-agnostic reinforcement learning. During the exploration phase, the agent actively selects actions expected to yield causal insights most beneficial for world model training. Concurrently, the causal knowledge is acquired and incrementally refined with the ongoing collection of data. We demonstrate that causal exploration aids in learning accurate world models using fewer data and provide theoretical guarantees for its convergence. Empirical experiments, on both synthetic data and real-world applications, further validate the benefits of causal exploration.
- Abstract(参考訳): モデルトレーニングの有効性は、利用可能なトレーニングリソースの品質に大きく依存している。
しかし、予算の制約は、しばしばデータ収集の取り組みに制限を課します。
この課題に対処するために、本論文では、データ収集とモデルトレーニングの両方に根底にある因果知識を活用する戦略である因果探索を紹介する。
特に,タスク非依存強化学習分野における世界モデル学習のサンプル効率と信頼性の向上に重点を置いている。
調査期間中、エージェントは、世界モデルトレーニングにおいて最も有益な因果的洞察を得るであろう行動を選択する。
同時に、因果的知識が取得され、進行中のデータ収集によって漸進的に洗練される。
我々は、因果探索が少ないデータを用いて正確な世界モデルを学ぶのに役立つことを実証し、その収束に関する理論的保証を提供する。
人工データと実世界の応用に関する実証実験は、因果探索の利点をさらに検証する。
関連論文リスト
- Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval [60.25608870901428]
信頼性は、大規模言語モデル(LLM)上に構築されたエージェントAIシステムの中核研究課題である
本研究では,任意の自然言語クレームの検証に焦点をあて,検索なしで事実チェックを行うタスクを提案する。
論文 参考訳(メタデータ) (2026-03-05T18:42:51Z) - Causal Learning Should Embrace the Wisdom of the Crowd [16.587840003381764]
本稿では,急速に進歩する技術に支えられた新しいパラダイムの出現に向けて,因果学習が準備されていることを論じる。
我々は因果発見のためのDAG学習に焦点をあて、分散意思決定タスクとして問題を枠組み化する。
これらの知見を合成するための体系的な枠組みを提案することにより、各エージェント単独でグローバル因果構造を回復することを目指している。
論文 参考訳(メタデータ) (2026-03-03T07:19:24Z) - Test-Time Learning of Causal Structure from Interventional Data [50.06913286558919]
共同因果推論を用いたテスト時間トレーニングを併用する新しい手法であるTICL(Test-Time Interventional Causal Learning)を提案する。
具体的には、テスト時にインスタンス固有のトレーニングデータを生成するための自己拡張戦略を設計し、分散シフトを効果的に回避する。
共同因果推論を統合することで,PCにインスパイアされた2相教師付き学習手法を開発し,理論的識別性を確保しつつ,自己拡張学習データを有効に活用した。
論文 参考訳(メタデータ) (2026-02-22T11:23:05Z) - The Path of Self-Evolving Large Language Models: Achieving Data-Efficient Learning via Intrinsic Feedback [51.144727949988436]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高める可能性を実証した。
本研究では,最小限のデータを用いたLLによるLLMの改善について検討する。
データ依存を最小限に抑えるため、自己認識に基礎を置いた2つの新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2025-10-03T06:32:10Z) - Embedding Domain Knowledge for Large Language Models via Reinforcement Learning from Augmented Generation [18.99847259801634]
本稿では,RLAG(Reinforcement Learning from Augmented Generation)を提案し,ドメイン知識を大規模言語モデルに組み込む。
提案手法は, サンプリング世代間を反復的に循環し, 計算した報酬によってモデルを最適化する。
医学、法学、天文学、および現在のイベントデータセットにわたる実験結果から、提案手法がベースラインアプローチを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-09-24T14:30:16Z) - AdvKT: An Adversarial Multi-Step Training Framework for Knowledge Tracing [64.79967583649407]
知識追跡(KT)は、学生の知識状態を監視し、質問シーケンスに対する反応をシミュレートする。
既存のKTモデルは通常、単一ステップのトレーニングパラダイムに従っており、大きなエラーの蓄積につながる。
本稿では,多段階KTタスクに着目した新しい知識追跡のための多段階学習フレームワーク(AdvKT)を提案する。
論文 参考訳(メタデータ) (2025-04-07T03:31:57Z) - Global Convergence of Continual Learning on Non-IID Data [51.99584235667152]
回帰モデルの連続学習のための総合的・包括的理論的解析を行う。
一般データ条件下で連続学習のほぼ確実に収束する結果を初めて確立する。
論文 参考訳(メタデータ) (2025-03-24T10:06:07Z) - Causal Information Prioritization for Efficient Reinforcement Learning [21.74375718642216]
現在の強化学習(RL)法は、しばしばサンプル効率に悩まされる。
最近の因果的アプローチはこの問題に対処することを目的としているが、それらは報酬誘導による状態や行動の因果的理解の基礎的なモデリングを欠いている。
本稿では,CIP(Causal Information Prioritization, 因果情報優先化)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-14T11:44:17Z) - B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners [18.960920426485163]
自己改善は、パフォーマンスを向上させる主要な方法として現れています。
本稿では,この反復的プロセスにおいて2つの重要な要因をモニタする手法を提案し,提案する。
B-STaRは、反復的な構成を調整し、探索とエクスプロイトのバランスをとる自己学習推論フレームワークである。
論文 参考訳(メタデータ) (2024-12-23T03:58:34Z) - KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [75.78948575957081]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - Exploring the Precise Dynamics of Single-Layer GAN Models: Leveraging Multi-Feature Discriminators for High-Dimensional Subspace Learning [0.0]
サブスペース学習の観点から,単層GANモデルのトレーニングダイナミクスについて検討する。
解析をサブスペース学習の領域にブリッジすることで,従来の手法と比較してGAN法の有効性を体系的に比較する。
論文 参考訳(メタデータ) (2024-11-01T10:21:12Z) - Mamba4KT:An Efficient and Effective Mamba-based Knowledge Tracing Model [8.432717706752937]
知識追跡は、過去のパフォーマンスを活用して将来のパフォーマンスを予測することによって、学生の学習を促進する。
スマート教育のシナリオにおけるデータ量の増大により、知識追跡モデルの時間と空間消費の観点からも、これは課題となる。
Mamba4KTは知識追跡の効率化と資源利用を初めて検討した。
論文 参考訳(メタデータ) (2024-05-26T12:26:03Z) - Collaborative Knowledge Infusion for Low-resource Stance Detection [83.88515573352795]
姿勢検出モデルを支援するために、ターゲット関連の知識がしばしば必要である。
低リソース姿勢検出タスクに対する協調的知識注入手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T08:32:14Z) - Learning Objective-Specific Active Learning Strategies with Attentive
Neural Processes [72.75421975804132]
学び アクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。
能動学習問題の対称性と独立性を利用した新しい分類法を提案する。
私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文 参考訳(メタデータ) (2023-09-11T14:16:37Z) - Thrust: Adaptively Propels Large Language Models with External Knowledge [58.72867916604562]
大規模事前学習言語モデル(PTLM)は、モデルパラメータの豊富な知識を符号化する。
PTLMの固有の知識は不透明または静的であり、外部の知識を必要とする。
本稿では,外部知識のインスタンスレベル適応推進(IAPEK)を提案する。
論文 参考訳(メタデータ) (2023-07-19T20:16:46Z) - GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。
外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文 参考訳(メタデータ) (2023-02-16T16:45:36Z) - Evaluation of Induced Expert Knowledge in Causal Structure Learning by
NOTEARS [1.5469452301122175]
非パラメトリックNOTEARSモデルの定式化に使用される追加制約の形で、専門家の知識が因果関係に与える影響について検討する。
その結果, (i) NOTEARSモデルの誤りを正す知識は, 統計的に有意な改善をもたらすこと, (ii) アクティブエッジに対する制約は, 非アクティブエッジよりも因果発見に肯定的な影響を与えること, (iii) 意外なことに, (iii) 誘導された知識は, 平均的な不正確なアクティブエッジおよび/または非アクティブエッジに対して予想以上に正確でないことが判明した。
論文 参考訳(メタデータ) (2023-01-04T20:39:39Z) - Improving Sample Efficiency of Deep Learning Models in Electricity
Market [0.41998444721319217]
我々は,サンプルの効率を向上させるため,知識強化トレーニング(KAT)という一般的なフレームワークを提案する。
本稿では,いくつかの合成データを生成する新しいデータ拡張手法を提案する。
現代の学習理論は, 効果的な予測誤差フィードバック, 信頼損失関数, リッチ勾配雑音の観点から, 提案手法の有効性を実証している。
論文 参考訳(メタデータ) (2022-10-11T16:35:13Z) - Causal Reinforcement Learning using Observational and Interventional
Data [14.856472820492364]
環境の因果モデルを効率的に学習することは、PMDPで動作するモデルRLエージェントの重要な課題である。
学習エージェントが環境と直接対話することでオンライン体験を収集できるシナリオを考察する。
オンラインとオフラインのエクスペリエンスは、因果モデルを学ぶために安全に組み合わせられるか?
論文 参考訳(メタデータ) (2021-06-28T06:58:20Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。