論文の概要: Transductive Reward Inference on Graph
- arxiv url: http://arxiv.org/abs/2402.03661v1
- Date: Tue, 6 Feb 2024 03:31:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 16:59:28.353337
- Title: Transductive Reward Inference on Graph
- Title(参考訳): グラフ上の帰納的推論
- Authors: Bohao Qu, Xiaofeng Cao, Qing Guo, Yi Chang, Ivor W. Tsang, Chengqi
Zhang
- Abstract要約: 本稿では,グラフ上の情報伝達の文脈特性に基づく報酬推定手法を提案する。
利用可能なデータと限定的な報酬アノテーションの両方を活用して、報酬伝達グラフを構築します。
構築したグラフをトランスダクティブな報酬推定に使用し,非競合データに対する報酬を推定する。
- 参考スコア(独自算出の注目度): 53.003245457089406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we present a transductive inference approach on that reward
information propagation graph, which enables the effective estimation of
rewards for unlabelled data in offline reinforcement learning. Reward inference
is the key to learning effective policies in practical scenarios, while direct
environmental interactions are either too costly or unethical and the reward
functions are rarely accessible, such as in healthcare and robotics. Our
research focuses on developing a reward inference method based on the
contextual properties of information propagation on graphs that capitalizes on
a constrained number of human reward annotations to infer rewards for
unlabelled data. We leverage both the available data and limited reward
annotations to construct a reward propagation graph, wherein the edge weights
incorporate various influential factors pertaining to the rewards.
Subsequently, we employ the constructed graph for transductive reward
inference, thereby estimating rewards for unlabelled data. Furthermore, we
establish the existence of a fixed point during several iterations of the
transductive inference process and demonstrate its at least convergence to a
local optimum. Empirical evaluations on locomotion and robotic manipulation
tasks validate the effectiveness of our approach. The application of our
inferred rewards improves the performance in offline reinforcement learning
tasks.
- Abstract(参考訳): 本研究では,その報酬情報伝達グラフに対する帰納的推論手法を提案し,オフライン強化学習においてラベルなしデータに対する報酬を効果的に推定することを可能にする。
報酬推論は実用的なシナリオで効果的なポリシーを学ぶための鍵であり、直接的な環境相互作用は費用がかかりすぎるか非倫理的であり、医療やロボティクスのような報酬機能がアクセスできない。
本研究では,制約付き人間報酬アノテーションを活かしたグラフ上の情報伝達の文脈特性に基づく報酬推論手法を開発し,ラベルなしデータに対する報酬を推測する。
我々は、利用可能なデータと限定的な報酬アノテーションの両方を利用して報酬伝達グラフを構築し、エッジ重み付けは報酬に関連するさまざまな影響要因を取り入れている。
得られたグラフを変換的報酬推論に活用し,ラベルなしデータに対する報酬を推定する。
さらに,帰納的推論過程の複数の反復の間に不動点の存在を確定し,その局所的最適値への少なくとも収束を示す。
歩行とロボット操作タスクに関する経験的評価は,このアプローチの有効性を検証する。
推定報酬の適用により,オフライン強化学習タスクの性能が向上する。
関連論文リスト
- Perturbation-based Graph Active Learning for Weakly-Supervised Belief Representation Learning [13.311498341765772]
目標は、制約された予算内でラベル付けする価値のあるソーシャルメディアグラフ上で、価値あるメッセージを戦略的に特定することである。
本稿では、ラベル付けのためのメッセージを段階的に選択するグラフデータ強化型アクティブラーニング戦略(PerbALGraph)を提案する。
論文 参考訳(メタデータ) (2024-10-24T22:11:06Z) - Debiasing Graph Representation Learning based on Information Bottleneck [18.35405511009332]
本稿では,変分グラフオートエンコーダに基づく新しいフレームワークGRAFairの設計と実装について述べる。
GRAFairの要点は条件フェアネス・ボトルネック(Conditional Fairness Bottleneck)であり、表現の効用と関心の情報とのトレードオフを捉えることを目的としている。
実世界の様々なデータセットに対する実験により,提案手法の有効性を,公正性,有用性,堅牢性,安定性の観点から実証した。
論文 参考訳(メタデータ) (2024-09-02T16:45:23Z) - Distance-rank Aware Sequential Reward Learning for Inverse Reinforcement
Learning with Sub-optimal Demonstrations [25.536792010283566]
逆強化学習(IRL)は、専門家による実験結果に基づいて、基礎となる報酬関数を明示的に推論することを目的としている。
本稿では,DRASRL(Distance-rank Aware Sequential Reward Learning)フレームワークを紹介する。
本フレームワークは,従来のSOTA手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-10-13T02:38:35Z) - Reward-Directed Conditional Diffusion: Provable Distribution Estimation
and Reward Improvement [42.45888600367566]
Directed Generationは、報酬関数によって測定された望ましい特性を持つサンプルを生成することを目的としている。
我々は、データセットがラベルのないデータと、ノイズの多い報酬ラベルを持つ小さなデータセットから構成される一般的な学習シナリオを考察する。
論文 参考訳(メタデータ) (2023-07-13T20:20:40Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - ALLSH: Active Learning Guided by Local Sensitivity and Hardness [98.61023158378407]
本稿では,局所感度と硬度認識獲得機能を備えたラベル付きサンプルの検索を提案する。
本手法は,様々な分類タスクにおいてよく用いられるアクティブラーニング戦略よりも一貫した利得が得られる。
論文 参考訳(メタデータ) (2022-05-10T15:39:11Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Invariance in Policy Optimisation and Partial Identifiability in Reward
Learning [67.4640841144101]
一般の報奨学習データソースに与えられる報酬関数の部分的識別性を特徴付ける。
また、政策最適化など、下流業務におけるこの部分的識別可能性の影響も分析する。
論文 参考訳(メタデータ) (2022-03-14T20:19:15Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。