論文の概要: CWM: Contrastive World Models for Action Feasibility Learning in Embodied Agent Pipelines
- arxiv url: http://arxiv.org/abs/2602.22452v1
- Date: Wed, 25 Feb 2026 22:27:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.434733
- Title: CWM: Contrastive World Models for Action Feasibility Learning in Embodied Agent Pipelines
- Title(参考訳): CWM: エージェントパイプラインにおけるアクションフィージビリティ学習のためのコントラスト世界モデル
- Authors: Chayan Banerjee,
- Abstract要約: 信頼性の高いアクション実現可能性スコアラは、エンボディされたエージェントパイプラインにおける重要なボトルネックである。
既存のアプローチでは、教師付き微調整(SFT)を使用してアクションスコアラーを訓練している。
本稿では,大規模言語モデル(LLM)をアクションスコアラーとして微調整するContrastive World Model (CWM)を提案する。
- 参考スコア(独自算出の注目度): 2.8681767712152197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A reliable action feasibility scorer is a critical bottleneck in embodied agent pipelines: before any planning or reasoning occurs, the agent must identify which candidate actions are physically executable in the current state. Existing approaches use supervised fine-tuning (SFT) to train action scorers, but SFT treats each candidate independently and does not explicitly teach the model to discriminate between actions that are physically correct and those that are subtly wrong. We propose the Contrastive World Model (CWM), which fine-tunes a large language model (LLM) as an action scorer using an InfoNCE contrastive objective with hard-mined negative examples. The key idea is to push valid actions away from invalid ones in scoring space, with special emphasis on hard negatives: semantically similar but physically incompatible candidates. We evaluate CWM on the ScienceWorld benchmark through two studies. First, an intrinsic affordance evaluation on 605 hard-negative test pairs shows that CWM outperforms SFT by +6.76 percentage points on Precision@1 for minimal-edit negatives -- cases where a single word changes the physical outcome -- and achieves a higher AUC-ROC (0.929 vs. 0.906). Second, a live filter characterisation study measures how well CWM ranks gold-path actions against all valid environment actions during task execution. Under out-of-distribution stress conditions, CWM maintains a significantly better safety margin (-2.39) than SFT (-3.96), indicating that the gold action is ranked closer to the top. These results support the hypothesis that contrastive training induces representations that capture physical feasibility more faithfully than SFT alone.
- Abstract(参考訳): 信頼できるアクション実行可能性スコアラは、実施されたエージェントパイプラインにおいて重要なボトルネックであり、計画や推論が発生する前に、エージェントは現在の状態において、どの候補アクションが物理的に実行可能なのかを特定する必要がある。
既存のアプローチでは、教師付き微調整(SFT)を使用してアクションスコアラーを訓練しているが、SFTは個々の候補を個別に扱い、物理的に正しいアクションと微妙に間違っているアクションを区別するモデルを明示的に教えていない。
本稿では,大規模な言語モデル (LLM) を InfoNCE の対照的な目的と強弱負の例を用いて,アクションスコアラーとして微調整するContrastive World Model (CWM) を提案する。
鍵となる考え方は、有効でないアクションを評価空間の無効なアクションから遠ざけることであり、特に難解なネガティブ(意味論的に類似しているが物理的に互換性のない候補)に重点を置いている。
我々は,ScienceWorldベンチマークのCWMを2つの研究により評価した。
第一に、605個のハードネガティブなテストペアに対する本質的な価格評価は、CWMが最小編集ネガティブのPrecision@1でSFTを+6.76ポイント上回り、1つの単語が物理的結果を変える場合)、より高いAUC-ROC(0.929 vs. 0.906)を達成することを示している。
第2に,CWMがタスク実行中のすべての有効な環境行動に対して,ゴールドパスアクションをどの程度適切にランク付けするかを評価する。
分布外ストレス条件下では、CWMはSFT (-3.96) よりもはるかに優れた安全マージン(2.39)を維持しており、金の作用が最上部に近づいていることを示している。
これらの結果は、コントラッシブトレーニングは、SFT単独よりも忠実に身体的実現性を捉える表現を誘導する、という仮説を支持している。
関連論文リスト
- When Actions Go Off-Task: Detecting and Correcting Misaligned Actions in Computer-Use Agents [50.5814495434565]
この研究は、コンピュータ利用エージェント(CUA)における不整合検出を定義し、研究する最初の試みである。
実世界のCUAデプロイメントにおける3つの一般的なカテゴリを特定し、人間の注釈付きアクションレベルのアライメントラベルを用いたリアルな軌跡のベンチマークであるMisActBenchを構築した。
本稿では,実行前に不整合を検知し,構造化されたフィードバックによって繰り返し修正する,実用的で普遍的なガードレールであるDeActionを提案する。
論文 参考訳(メタデータ) (2026-02-09T18:41:15Z) - Post-Training and Test-Time Scaling of Generative Agent Behavior Models for Interactive Autonomous Driving [3.8612647047433217]
グループ相対行動最適化は、行動リアリズムを維持しながら安全性を40%以上改善する。
Warm-Kは、動き選択における一貫性と多様性のバランスをとる温かいスタートのTop-Kサンプリング戦略である。
論文 参考訳(メタデータ) (2025-12-15T12:18:50Z) - Compositional Bias Control in Large Language Models: Preference Learning Fails, Supervision Succeeds [0.0]
大規模言語モデル (LLMs) は、職業中立の文脈においても男女ステレオタイプ言語を生成する。
バイアス緩和のための6つの制御手法を比較する: プロンプトオンリー、ジェネレータ、DFAベースのCtrl-Gデコーディング、スーパーバイザードファインチューニング(SFT)、直接選好最適化(DPO)、反復ヌルスペース投影(INLP)。
SFT は 99.87 +- 0.15% のコンプライアンスと高い語彙の多様性を達成するが、DPO は同様の訓練安定性にもかかわらず 4.53 +- 0.82% で失敗する。
論文 参考訳(メタデータ) (2025-10-24T23:52:37Z) - The Thinking Therapist: Training Large Language Models to Deliver Acceptance and Commitment Therapy using Supervised Fine-Tuning and Odds Ratio Policy Optimization [0.0]
アクセプタンス・アンド・コミット・セラピー(Acceptance and Commitment Therapy、ACT)は、認知行動療法の一種で、いくつかの精神疾患において効果の出現を示す。
本研究では,学習後方法論と明示的推論が小規模なオープンウェイト大規模言語モデル(LLM)のACT提供能力に与える影響について検討した。
論文 参考訳(メタデータ) (2025-09-08T02:30:12Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Perturbation-Invariant Adversarial Training for Neural Ranking Models:
Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで 敵の例を作れます
この脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。
本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文 参考訳(メタデータ) (2023-12-16T05:38:39Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。