論文の概要: Curiosity-Diffuser: Curiosity Guide Diffusion Models for Reliability
- arxiv url: http://arxiv.org/abs/2503.14833v1
- Date: Wed, 19 Mar 2025 02:25:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:24:29.876042
- Title: Curiosity-Diffuser: Curiosity Guide Diffusion Models for Reliability
- Title(参考訳): 好奇性ディフューザ:信頼性のための好奇性ガイド拡散モデル
- Authors: Zihao Liu, Xing Liu, Yizhai Zhang, Zhengxiong Liu, Panfeng Huang,
- Abstract要約: ニューラルネットワークに基づく模倣ポリシーは幻覚を発生させ、現実世界のアプリケーションの安全性に影響を与える不正確な行動を引き起こす可能性がある。
本稿では,条件拡散モデルの導出を目的としたCuriosity-Diffuserを提案する。
Curiosity-Diffuserはタスクのパフォーマンスを大幅に改善し、トレーニングデータに近い振る舞いを生成する。
- 参考スコア(独自算出の注目度): 9.389039109130337
- License:
- Abstract: One of the bottlenecks in robotic intelligence is the instability of neural network models, which, unlike control models, lack a well-defined convergence domain and stability. This leads to risks when applying intelligence in the physical world. Specifically, imitation policy based on neural network may generate hallucinations, leading to inaccurate behaviors that impact the safety of real-world applications. To address this issue, this paper proposes the Curiosity-Diffuser, aimed at guiding the conditional diffusion model to generate trajectories with lower curiosity, thereby improving the reliability of policy. The core idea is to use a Random Network Distillation (RND) curiosity module to assess whether the model's behavior aligns with the training data, and then minimize curiosity by classifier guidance diffusion to reduce overgeneralization during inference. Additionally, we propose a computationally efficient metric for evaluating the reliability of the policy, measuring the similarity between the generated behaviors and the training dataset, to facilitate research about reliability learning. Finally, simulation verify the effectiveness and applicability of the proposed method to a variety of scenarios, showing that Curiosity-Diffuser significantly improves task performance and produces behaviors that are more similar to the training data. The code for this work is available at: github.com/CarlDegio/Curiosity-Diffuser
- Abstract(参考訳): ロボットインテリジェンスのボトルネックの1つは、ニューラルネットワークモデルの不安定性である。
これは、物理的な世界でインテリジェンスを適用する際のリスクにつながる。
具体的には、ニューラルネットワークに基づく模倣ポリシーは幻覚を発生させ、現実世界のアプリケーションの安全性に影響を与える不正確な行動を引き起こす可能性がある。
そこで本稿では,条件付き拡散モデルを用いて低好奇性トラジェクトリを生成するCuriosity-Diffuserを提案する。
中心となる考え方は、ランダムネットワーク蒸留(RND)好奇性モジュールを使用して、モデルの振る舞いがトレーニングデータと一致しているかを評価し、次に分類器誘導拡散により好奇性を最小限にし、推論時の過一般化を減らすことである。
また,提案手法の信頼性を評価するための計算効率のよい尺度を提案し,提案手法の信頼性向上を図るために,生成した行動とトレーニングデータセットの類似度を測定した。
最後に,提案手法の有効性と各種シナリオへの適用性をシミュレーションにより検証し,Curiosity-Diffuser がタスク性能を大幅に改善し,トレーニングデータに類似した動作を生成することを示した。
この作業のコードは、github.com/CarlDegio/Curiosity-Diffuserで公開されている。
関連論文リスト
- Targeted Cause Discovery with Data-Driven Learning [66.86881771339145]
本稿では,観測結果から対象変数の因果変数を推定する機械学習手法を提案する。
我々は、シミュレートされたデータの教師あり学習を通じて因果関係を特定するために訓練されたニューラルネットワークを用いる。
大規模遺伝子制御ネットワークにおける因果関係の同定における本手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-08-29T02:21:11Z) - Gaussian Mixture Models for Affordance Learning using Bayesian Networks [50.18477618198277]
Affordancesはアクション、オブジェクト、エフェクト間の関係の基本的な記述である。
本稿では,世界を探究し,その感覚経験から自律的にこれらの余裕を学習するエンボディエージェントの問題にアプローチする。
論文 参考訳(メタデータ) (2024-02-08T22:05:45Z) - Leveraging Diffusion-Based Image Variations for Robust Training on
Poisoned Data [26.551317580666353]
バックドア攻撃は、ニューラルネットワークをトレーニングする上で深刻なセキュリティ上の脅威となる。
本稿では,近年の拡散モデルのパワーを生かして,潜在的に有毒なデータセットのモデルトレーニングを可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:25:06Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Addressing Mistake Severity in Neural Networks with Semantic Knowledge [0.0]
ほとんどの堅牢なトレーニング技術は、摂動入力のモデル精度を改善することを目的としている。
強靭性の代替形態として、ニューラルネットワークが挑戦的な状況で犯した誤りの深刻度を低減することを目的としている。
我々は、現在の対人訓練手法を活用して、トレーニングプロセス中に標的の対人攻撃を発生させる。
その結果,本手法は,標準モデルや逆トレーニングモデルと比較して,誤り重大性に対して優れた性能を示した。
論文 参考訳(メタデータ) (2022-11-21T22:01:36Z) - Out-of-Distribution Detection with Hilbert-Schmidt Independence
Optimization [114.43504951058796]
異常検出タスクはAIの安全性において重要な役割を担っている。
ディープニューラルネットワーク分類器は通常、アウト・オブ・ディストリビューション(OOD)の入力を、信頼性の高いイン・ディストリビューション・クラスに誤って分類する傾向がある。
我々は,OOD検出タスクにおいて実用的かつ理論的に有効な代替確率論的パラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-26T15:59:55Z) - Cross-Validation and Uncertainty Determination for Randomized Neural
Networks with Applications to Mobile Sensors [0.0]
極端学習マシンは、限られたコンピュータリソースとグリーン機械学習の下で教師付き学習を行うための魅力的で効率的な方法を提供する。
このようなネットワークと回帰手法による教師あり学習について,一般化と予測誤差の整合性および境界性の観点から考察した。
論文 参考訳(メタデータ) (2021-01-06T12:28:06Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。