論文の概要: Dual Advantage Fields
- arxiv url: http://arxiv.org/abs/2606.04188v1
- Date: Tue, 02 Jun 2026 20:15:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.365682
- Title: Dual Advantage Fields
- Title(参考訳): デュアルアドバンテージフィールド
- Authors: Alexey Zemtsov, Maxim Bobrin, Alexander Nikulin, Dmitry V. Dylov, Fakhri Karray, Vladislav Kurenkov, Martin Takáč, Arip Asadulaev,
- Abstract要約: 本稿では,双線形二重値モデルを局所的有利信号に変換するポリシ抽出法であるDual Advantage Fieldsを提案する。
OGBenchのロコモーション、操作、パズルタスクでは、DAFは総合的なRLiableメトリクスを改善し、局所的に正しいアクションが最終目標に向かっての直接の動きと異なる設定で強く機能する。
- 参考スコア(独自算出の注目度): 49.37343159001842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline goal-conditioned reinforcement learning requires both long-horizon reachability estimates and local action comparisons. Dual goal representations provide value fields that capture global goal reachability, but they do not directly specify which action should be preferred at a given state. We propose Dual Advantage Fields, a policy-extraction method that turns a bilinear dual value model into a local advantage signal. Under bilinear dual parameterization, the goal embedding is the gradient of the value field with respect to the state representation. DAF learns an action-effect model that predicts the discounted feature displacement induced by an action and scores actions by the alignment between this displacement and the goal direction. In the realizable case, this score equals the goal-conditioned Bellman advantage, yielding a standard local policy-improvement guarantee. On OGBench locomotion, manipulation, and puzzle tasks, DAF improves aggregate RLiable metrics and performs strongly in settings where locally correct actions differ from direct movement toward the final goal.
- Abstract(参考訳): オフラインの目標条件強化学習には、長距離到達可能性推定と局所行動比較の両方が必要である。
デュアルゴール表現は、グローバルなゴール到達可能性をキャプチャする値フィールドを提供するが、与えられた状態においてどのアクションが望ましいかを直接指定しない。
本稿では,双線形二重値モデルを局所的有利信号に変換するポリシ抽出法であるDual Advantage Fieldsを提案する。
双線型双対パラメータ化の下では、ゴール埋め込みは状態表現に対する値場の勾配である。
DAFは、動作によって誘導される割引特徴変位を予測し、この変位と目標方向とのアライメントにより動作を評価する行動効果モデルを学ぶ。
実現可能な場合、このスコアは目標条件のベルマンの利点と等しく、標準的な局所的な政策改善保証をもたらす。
OGBenchのロコモーション、操作、パズルタスクでは、DAFは総合的なRLiableメトリクスを改善し、局所的に正しいアクションが最終目標に向かっての直接の動きと異なる設定で強く機能する。
関連論文リスト
- Target-Aligned Bellman Backup for Cross-domain Offline Reinforcement Learning [7.282517489507499]
クロスドメインオフライン強化学習は、ソースドメインから収集したデータを活用することにより、ターゲットドメインにおけるポリシー学習を改善することを目的としている。
既存の研究は通常、ソース・ドメインデータの転送可能性を評価し、ターゲット・ドメインの遷移と類似度を測定し、暗黙的に遷移レベルの選択を行う。
本稿では、ターゲット領域における正確なベルマン目標推定への寄与を計測し、ソースドメインデータを選択的に活用するTarget-Aligned Bellman Backup (TABB) を提案する。
論文 参考訳(メタデータ) (2026-05-21T12:09:11Z) - AnchorRefine: Synergy-Manipulation Based on Trajectory Anchor and Residual Refinement for Vision-Language-Action Models [60.04879435087352]
視覚言語アクション(VLA)ポリシーは、単一の統一空間内でアクションを生成する。
本稿では,VLAの動作モデリングを軌跡アンカーと残留精細化に分解する階層的フレームワークであるAnchorRefineを提案する。
LIBERO、CALVIN、および実ロボットタスクの実験では、AnchorRefineは回帰ベースと拡散ベースの両方のVLAバックボーンを一貫して改善している。
論文 参考訳(メタデータ) (2026-04-20T04:25:24Z) - Boosting Vision-Language-Action Finetuning with Feasible Action Neighborhood Prior [20.92774693812594]
現実世界のロボット操作では、州は一般的にほぼ等価な行動の地区を認める。
モデル出力分布をFANの幾何と整合させるFAN誘導正規化器を提案する。
論文 参考訳(メタデータ) (2026-04-02T03:30:43Z) - The Cognitive Bandwidth Bottleneck: Shifting Long-Horizon Agent from Planning with Actions to Planning with Schemas [56.62286434195321]
本稿では2つの異なる行動表現の有効性を体系的に研究する。
本稿では,その違いを質的に理解するための概念的枠組みとして,認知的帯域幅の観点を提案する。
より有能なPwSエージェントを構築するための実用的なガイドを提供する。
論文 参考訳(メタデータ) (2025-10-08T14:47:40Z) - DAgger Diffusion Navigation: DAgger Boosted Diffusion Policy for Vision-Language Navigation [73.80968452950854]
Vision-Language Navigation in Continuous Environments (VLN-CE) は、エージェントが自由形式の3D空間を通して自然言語の指示に従う必要がある。
既存のVLN-CEアプローチは通常、2段階のウェイポイント計画フレームワークを使用する。
本稿では,エンドツーエンド最適化VLN-CEポリシとしてDAgger Diffusion Navigation (DifNav)を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:51:43Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - DSD-DA: Distillation-based Source Debiasing for Domain Adaptive Object Detection [37.01880023537362]
我々は、ドメイン適応オブジェクト検出(DAOD)のための新しい蒸留系ソースデバイアス(DSD)フレームワークを提案する。
このフレームワークは、事前訓練された教師モデルからドメインに依存しない知識を抽出し、両方のドメインにおける検出器の性能を向上させる。
また,DCE(Domain-Aware Consistency Enhancing)戦略を提案し,これらの情報を新たなローカライゼーション表現に定式化する。
論文 参考訳(メタデータ) (2023-11-17T10:26:26Z) - TarGF: Learning Target Gradient Field for Object Rearrangement [8.49306925839127]
我々は、オブジェクト配置のより実用的な設定、すなわち、シャッフルされたレイアウトから規範的なターゲット分布へオブジェクトを並べ替えることに焦点を当てる。
報酬工学の目標分布(目標仕様)を記述したり、専門家の軌跡を実証として収集することは困難である。
我々は、目標勾配場(TarGF)の学習にスコアマッチングの目的を用い、目標分布の可能性を高めるために各対象の方向を示す。
論文 参考訳(メタデータ) (2022-09-02T07:20:34Z) - Higher Performance Visual Tracking with Dual-Modal Localization [106.91097443275035]
Visual Object Tracking (VOT)は、堅牢性と正確性の両方に同期性を必要とする。
ONRによるロバストなローカリゼーション抑制器とOFCによるターゲットセンターへの正確なローカリゼーションにより、ターゲットローカリゼーションのためのデュアルモーダルフレームワークを提案します。
論文 参考訳(メタデータ) (2021-03-18T08:47:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。