論文の概要: Detecting Non-Optimal Decisions of Embodied Agents via Diversity-Guided Metamorphic Testing
- arxiv url: http://arxiv.org/abs/2512.20083v1
- Date: Tue, 23 Dec 2025 06:27:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.768176
- Title: Detecting Non-Optimal Decisions of Embodied Agents via Diversity-Guided Metamorphic Testing
- Title(参考訳): 多様性誘導型変成試験による炭水化物非最適分解の検出
- Authors: Wenzhao Wu, Yahui Tang, Mingfei Cheng, Wenbing Tang, Yuan Zhou, Yang Liu,
- Abstract要約: 非最適決定(NoDs)は、大幅な性能低下と資源浪費につながる可能性がある。
我々は,具体的エージェントタスク計画において,NoDを検出するための体系的なフレームワークであるNoD-DGMTを提案する。
4つの最先端計画モデルを用いたAI2-THORシミュレータの大規模な実験は、NoD-DGMTが平均31.9%の違反検出率を達成することを示した。
- 参考スコア(独自算出の注目度): 10.937781002196381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As embodied agents advance toward real-world deployment, ensuring optimal decisions becomes critical for resource-constrained applications. Current evaluation methods focus primarily on functional correctness, overlooking the non-functional optimality of generated plans. This gap can lead to significant performance degradation and resource waste. We identify and formalize the problem of Non-optimal Decisions (NoDs), where agents complete tasks successfully but inefficiently. We present NoD-DGMT, a systematic framework for detecting NoDs in embodied agent task planning via diversity-guided metamorphic testing. Our key insight is that optimal planners should exhibit invariant behavioral properties under specific transformations. We design four novel metamorphic relations capturing fundamental optimality properties: position detour suboptimality, action optimality completeness, condition refinement monotonicity, and scene perturbation invariance. To maximize detection efficiency, we introduce a diversity-guided selection strategy that actively selects test cases exploring different violation categories, avoiding redundant evaluations while ensuring comprehensive diversity coverage. Extensive experiments on the AI2-THOR simulator with four state-of-the-art planning models demonstrate that NoD-DGMT achieves violation detection rates of 31.9% on average, with our diversity-guided filter improving rates by 4.3% and diversity scores by 3.3 on average. NoD-DGMT significantly outperforms six baseline methods, with 16.8% relative improvement over the best baseline, and demonstrates consistent superiority across different model architectures and task complexities.
- Abstract(参考訳): 具体的エージェントが現実世界の展開に向かって進むにつれ、リソース制約のあるアプリケーションにとって最適な決定が重要になる。
現在の評価方法は、主に、生成された計画の非機能的最適性を見越して、機能的正当性に焦点を当てている。
このギャップは、パフォーマンスの大幅な低下とリソースの浪費につながる可能性がある。
非最適決定問題(NoDs)は,エージェントが正常にタスクを完了させるが,非効率に処理を完了させる問題である。
我々は,多様性誘導型メタモルフィックテストによる具体的エージェントタスク計画において,NoDを検出するための体系的フレームワークであるNoD-DGMTを提案する。
我々の重要な洞察は、最適プランナーは特定の変換の下で不変な振る舞い特性を示すべきであるということである。
基本的な最適性特性をとらえる4つの新しいメタモルフィック関係を設計する: 位置重心部分最適性、行動最適性完全性、条件改善単調性、シーン摂動不変性。
検出効率を最大化するために,異なる違反カテゴリを探索するテストケースを積極的に選択し,冗長な評価を回避し,包括的多様性範囲を確保した多様性誘導選択戦略を導入する。
4つの最先端計画モデルを用いたAI2-THORシミュレータの大規模な実験により、NoD-DGMTは平均31.9%の違反検出率を達成し、ダイバーシティ誘導フィルタは平均4.3%改善し、ダイバーシティスコアは3.3%向上した。
NoD-DGMTは6つのベースライン法を著しく上回り、最高のベースラインよりも16.8%改善し、異なるモデルアーキテクチャやタスクの複雑さに対して一貫した優位性を示している。
関連論文リスト
- TCPO: Thought-Centric Preference Optimization for Effective Embodied Decision-making [75.29820290660065]
本稿では,効果的な具体的意思決定のための思考中心推論最適化(TCPO)を提案する。
モデルの中間的推論プロセスの整合性を強調し、モデル劣化の問題を緩和する。
ALFWorld環境での実験では、平均成功率は26.67%であり、RL4VLMよりも6%向上している。
論文 参考訳(メタデータ) (2025-09-10T11:16:21Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Look Before Leap: Look-Ahead Planning with Uncertainty in Reinforcement Learning [4.902161835372679]
モデルに基づく探索計画を用いた不確実性を考慮したポリシー最適化のための新しいフレームワークを提案する。
政策最適化フェーズでは、不確実性駆動型探索政策を活用し、多様なトレーニングサンプルを積極的に収集する。
我々のアプローチは、様々な状態/行動空間と報酬構造を持つタスクに柔軟性と適用性を提供します。
論文 参考訳(メタデータ) (2025-03-26T01:07:35Z) - Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.08326521234228]
オフライン多目的最適化のための優先誘導拡散モデルを提案する。
我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。
本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-21T16:49:38Z) - DATTA: Towards Diversity Adaptive Test-Time Adaptation in Dynamic Wild World [6.816521410643928]
本稿では,QoE(Quality of Experience)の改善を目的としたDATTA(Diversity Adaptive Test-Time Adaptation)という手法を提案する。
バッチの多様性を評価するダイバーシティ識別(DD)、DDの洞察に基づく正規化手法を調整するためのダイバーシティ適応バッチ正規化(DABN)、モデルを選択的に微調整するダイバーシティ適応細調整(DAFT)の3つの主要なコンポーネントが特徴である。
実験結果から,本手法の精度は最先端手法と比較して最大21%向上することがわかった。
論文 参考訳(メタデータ) (2024-08-15T09:50:11Z) - Testing for Fault Diversity in Reinforcement Learning [13.133263651395865]
ポリシテストは可能な限り多くの障害(例えば、同様の自動車事故を引き起こすインプット)を見つけるのではなく、モデルで可能な限り情報的かつ多様な障害を明らかにすることを目的としている、と私たちは主張する。
QDの最適化は概念的には単純であり、一般的に適用可能であるが、決定モデルにおいてより多様な欠点を効果的に発見できることが示される。
論文 参考訳(メタデータ) (2024-03-22T09:46:30Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - Approximating Gradients for Differentiable Quality Diversity in
Reinforcement Learning [8.591356221688773]
微分品質多様性(DQD)アルゴリズムは、目標と測度に対して正確な勾配が利用できる場合、QD最適化を大幅に加速する。
我々はDQDアルゴリズムCMA-MEGAの2つの変種を開発し、それぞれ異なる勾配近似を持ち、それらを4つのシミュレーション歩行タスクで評価する。
1つの変種は、最先端のPGA-MAP-Elitesを2つのタスクで同等の性能(QDスコア)を達成する。もう1つの変種は、全てのタスクで比較可能だが、2つのタスクでPGA-MAP-Elitesよりも効率が低い。
論文 参考訳(メタデータ) (2022-02-08T05:53:55Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - On the use of feature-maps and parameter control for improved
quality-diversity meta-evolution [1.0152838128195467]
QD(Quality-Diversity)アルゴリズムは、挙動的に多様なハイパフォーマンスソリューションのアーカイブを進化させる。
QDアルゴリズムの個体群を進化させ、アーカイブレベルの目的、メタ適合性に基づいて行動空間を最適化する。
非線形および特徴選択のフィーチャーマップは、メタフィット性において15倍、3倍の改善をもたらす。
論文 参考訳(メタデータ) (2021-05-21T12:43:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。