Fugu-MT 論文翻訳(概要): Why long model-based rollouts are no reason for bad Q-value estimates

論文の概要: Why long model-based rollouts are no reason for bad Q-value estimates

arxiv url: http://arxiv.org/abs/2407.11751v1
Date: Tue, 16 Jul 2024 14:17:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 14:42:40.500611
Title: Why long model-based rollouts are no reason for bad Q-value estimates
Title（参考訳）: モデルベースロールアウトがなぜ悪いQ値推定の理由ではないのか
Authors: Philipp Wissmann, Daniel Hein, Steffen Udluft, Volker Tresp,
Abstract要約: 本研究の目的は,長期ロールアウトが必ずしも指数関数的に増大するエラーを生じさせるわけではなく,モデルフリー法よりもQ値推定が優れていることを示すことである。
参考スコア（独自算出の注目度）: 20.792860954978185
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper explores the use of model-based offline reinforcement learning with long model rollouts. While some literature criticizes this approach due to compounding errors, many practitioners have found success in real-world applications. The paper aims to demonstrate that long rollouts do not necessarily result in exponentially growing errors and can actually produce better Q-value estimates than model-free methods. These findings can potentially enhance reinforcement learning techniques.
Abstract（参考訳）: 本稿では,長いモデルロールアウトによるモデルベースオフライン強化学習の利用について検討する。一部の文献では、この手法が誤りを複雑にしているとして批判されているが、現実の応用において多くの実践者が成功している。本研究の目的は,長期ロールアウトが必ずしも指数関数的に増大するエラーを生じさせるわけではなく,モデルフリー法よりもQ値推定が優れていることを示すことである。これらの発見は、強化学習技術を強化する可能性がある。

関連論文リスト

Large Reasoning Models are not thinking straight: on the unreliability of thinking trajectories [0.0]
強化学習(RL)を通じてトレーニングされたLarge Language Models(LLMs)は、最近、推論ベンチマークで印象的な結果を得た。しかし、成長する証拠は、これらのモデルがしばしば長いが効果のない思考の連鎖(CoT)を生成することを示している。モデルが明示的に提供しても正しい解を無視し、代わりに不要な推論ステップを生成し続けるという、過度な考えの新たな証拠を提示する。
論文参考訳（メタデータ） (2025-07-01T12:14:22Z)
Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。因果関係はこれらの課題を体系的に解決するための理想的な枠組みを提供します
論文参考訳（メタデータ） (2025-02-07T17:01:37Z)
Is it the model or the metric -- On robustness measures of deeplearning models [2.8169948004297565]
ディープフェイク検出の文脈におけるロバスト精度(RA)の正当性について再検討する。本稿では, RAとRRの比較を行い, モデル間の類似のRAにもかかわらず, モデルが異なる許容レベル(摂動レベル)でRRが変化することを示した。
論文参考訳（メタデータ） (2024-12-13T02:26:58Z)
Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文参考訳（メタデータ） (2024-10-10T10:58:41Z)
Improving the portability of predicting students performance models by using ontologies [0.0]
教育データマイニングと学習分析の主な課題の1つは、予測モデルの移植性である。そこで,本研究では,学生がMoodle学習管理システムと相互作用する行動の分類を用いたオントロジーの利用を提案する。その結果,提案するオントロジーを用いることで,予測精度の観点からモデルのポータビリティが向上することが示唆された。
論文参考訳（メタデータ） (2024-10-09T18:18:54Z)
Accelerating Deep Learning with Fixed Time Budget [2.190627491782159]
本稿では,一定時間内に任意のディープラーニングモデルを学習するための効果的な手法を提案する。提案手法はコンピュータビジョンにおける分類タスクと回帰タスクの両方において広範囲に評価される。
論文参考訳（メタデータ） (2024-10-03T21:18:04Z)
Model-based Offline Reinforcement Learning with Lower Expectile Q-Learning [6.345851712811528]
我々は、新しいモデルに基づくオフラインRL手法、Low expectile Q-learning (LEQ)を導入する。 LEQは、$lambda$-returnsの低い期待回帰による低バイアスモデルベースの値推定を提供する。我々の研究は、低期待の回帰、$lambda$-returns、オフラインデータに対する批判的トレーニングがLEQにとって重要であることを示した。
論文参考訳（メタデータ） (2024-06-30T13:44:59Z)
Plan To Predict: Learning an Uncertainty-Foreseeing Model for Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。 P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-01-20T10:17:22Z)
Investigating Ensemble Methods for Model Robustness Improvement of Text Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文参考訳（メタデータ） (2022-10-28T17:52:10Z)
Model Reprogramming: Resource-Efficient Cross-Domain Machine Learning [65.268245109828]
視覚、言語、音声などのデータに富む領域では、ディープラーニングが高性能なタスク固有モデルを提供するのが一般的である。リソース制限されたドメインでのディープラーニングは、(i)限られたデータ、(ii)制約付きモデル開発コスト、(iii)効果的な微調整のための適切な事前学習モデルの欠如など、多くの課題に直面している。モデル再プログラミングは、ソースドメインから十分に訓練されたモデルを再利用して、モデル微調整なしでターゲットドメインのタスクを解くことで、リソース効率のよいクロスドメイン機械学習を可能にする。
論文参考訳（メタデータ） (2022-02-22T02:33:54Z)
Revisiting Design Choices in Model-Based Offline Reinforcement Learning [39.01805509055988]
オフライン強化学習により、エージェントは環境遷移の大規模な収集済みデータセットを利用して制御ポリシーを学習することができる。本稿では、モデル数や仮想ロールアウト地平線など、他のハイパーパラメータとの相互作用を研究するための新しいプロトコルを比較し、設計する。
論文参考訳（メタデータ） (2021-10-08T13:51:34Z)
Thinkback: Task-SpecificOut-of-Distribution Detection [11.564082628014638]
本稿では,Deep Learningモデルに適した分布外検出問題を定式化する方法を提案する。本手法では, トレーニングデータに対する微調整処理は必要としないが, アウト・オブ・ディストリビューション検出技術よりもはるかに精度が高い。
論文参考訳（メタデータ） (2021-07-13T09:34:26Z)
Learning from others' mistakes: Avoiding dataset biases without modeling them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。本稿では,これらの問題点を無視する学習モデルについて述べる。
論文参考訳（メタデータ） (2020-12-02T16:10:54Z)
Accurate and Robust Feature Importance Estimation under Distribution Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2020-09-30T05:29:01Z)
Towards Interpretable Deep Learning Models for Knowledge Tracing [62.75876617721375]
本稿では,深層学習に基づく知識追跡(DLKT)モデルの解釈可能性問題に対処するポストホック手法を提案する。具体的には、RNNに基づくDLKTモデルを解釈するために、レイヤワイズ関連伝搬法(LRP)を適用することに焦点をあてる。実験結果から,DLKTモデルの予測をLRP法で解釈できることを示す。
論文参考訳（メタデータ） (2020-05-13T04:03:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。