論文の概要: LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models
- arxiv url: http://arxiv.org/abs/2603.28301v1
- Date: Mon, 30 Mar 2026 11:27:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.357926
- Title: LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models
- Title(参考訳): LIBERO-Para: VLAモデルにおけるパラフレーズロバストネスの診断基準と指標
- Authors: Chanyoung Kim, Minwoo Kim, Minseok Kang, Hyunwoo Kim, Dahuin Jung,
- Abstract要約: 本稿では,言語一般化の詳細な解析のためのベンチマークであるLIBERO-Paraを紹介する。
パラフレージングにより22-52ppの連続的な性能劣化が観察された。
本稿では,意味的因子と構文的因子を用いてパラフレーズの難易度を定量化する指標PRIDEを提案する。
- 参考スコア(独自算出の注目度): 15.955490895662384
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-Language-Action (VLA) models achieve strong performance in robotic manipulation by leveraging pre-trained vision-language backbones. However, in downstream robotic settings, they are typically fine-tuned with limited data, leading to overfitting to specific instruction formulations and leaving robustness to paraphrased instructions underexplored. To study this gap, we introduce LIBERO-Para, a controlled benchmark that independently varies action expressions and object references for fine-grained analysis of linguistic generalization. Across seven VLA configurations (0.6B-7.5B), we observe consistent performance degradation of 22-52 pp under paraphrasing. This degradation is primarily driven by object-level lexical variation: even simple synonym substitutions cause large drops, indicating reliance on surface-level matching rather than semantic grounding. Moreover, 80-96% of failures arise from planning-level trajectory divergence rather than execution errors, showing that paraphrasing disrupts task identification. Binary success rate treats all paraphrases equally, obscuring whether models perform consistently across difficulty levels or rely on easier cases. To address this, we propose PRIDE, a metric that quantifies paraphrase difficulty using semantic and syntactic factors. Our benchmark and corresponding code are available at: https://github.com/cau-hai-lab/LIBERO-Para
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、トレーニング済みの視覚言語バックボーンを活用することで、ロボット操作における強力なパフォーマンスを実現する。
しかし、下流のロボット環境では、通常は限られたデータで微調整され、特定の命令の定式化に過度に適合し、探索されていない説明文に頑健さを残している。
このギャップを研究するために,言語一般化のきめ細かい解析のために,アクション表現とオブジェクト参照を独立に変化させる制御ベンチマークであるLIBERO-Paraを導入する。
7つのVLA構成 (0.6B-7.5B) にまたがって, パラフレーズ下での22-52ppの連続的な性能劣化を観察した。
この分解は、主にオブジェクトレベルの語彙変化によって引き起こされる:単純なシノニム置換でさえ大きなドロップを引き起こし、セマンティックグラウンドよりも表面レベルのマッチングに依存することを示す。
さらに、80-96%の障害は、実行エラーよりも計画レベルの軌道分岐によって発生し、パラフレーズ化がタスク識別を妨害することを示している。
バイナリ成功率はすべてのパラフレーズを平等に扱い、モデルの難易度を一貫して越えるか、より簡単なケースに依存しているかを無視する。
そこで本研究では,意味的・統語的要因を用いてパラフレーズの難易度を定量化する指標PRIDEを提案する。
ベンチマークと対応するコードは、https://github.com/cau-hai-lab/LIBERO-Paraで公開されています。
関連論文リスト
- TAG: Target-Agnostic Guidance for Stable Object-Centric Inference in Vision-Language-Action Models [59.13964209628383]
VLA(Vision-Language-Action)ポリシーは、言語指示や視覚的な観察をロボット行動にマッピングする上で大きな進歩を見せている。
本稿では,VLA政策における乱れや外見に起因したバイアスを明示的に軽減する単純な推論時ガイダンス機構であるTAG(Target-Agnostic Guidance)を提案する。
我々は, LIBERO, LIBERO-Plus, VLABenchなどの標準操作ベンチマーク上でTAGを評価し, クラッタ下での堅牢性を一貫して改善し, ニアミスや不正なオブジェクト実行を減らす。
論文 参考訳(メタデータ) (2026-03-25T17:56:32Z) - Rethinking Visual-Language-Action Model Scaling: Alignment, Mixture, and Regularization [65.37179698521766]
VLA(Vision-Language-Action)モデルは、ジェネラリストロボットの制御を強く約束する。
標準的な「スケールデータ」レシピがロボット工学に翻訳されるかどうかはまだ不明だ。
本稿では,多様なロボットを対象とした事前学習のためのコアトレーニング選択を再考する,VLAスケーリングの体系的かつ制御された研究を提案する。
論文 参考訳(メタデータ) (2026-02-10T12:25:43Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - RoParQ: Paraphrase-Aware Alignment of Large Language Models Towards Robustness to Paraphrased Questions [0.0]
大規模言語モデル(LLM)は、パラフレーズ付き質問に答えるときに矛盾する振る舞いを示すことが多い。
クローズドブック多重選択QAにおけるクロスパラフレーズ一貫性を評価するベンチマークであるRoParQを紹介する。
また、モデルのロバスト性を定量化する新しい評価指標XParaConを提案する。
論文 参考訳(メタデータ) (2025-11-26T16:40:53Z) - LLMs Show Surface-Form Brittleness Under Paraphrase Stress Tests [0.0]
LLM(Large Language Models)のベンチマークスコアは、テスト項目の記憶や、ほぼ重複によって膨らませることができる。
本稿では,ベンチマーク質問のパラフレーズバージョンにおけるモデルの再評価により一般化を探索するプロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-08T06:04:33Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z) - Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。
近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。
本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。
複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文 参考訳(メタデータ) (2025-02-19T12:07:53Z) - DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。
DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-08-01T07:08:11Z) - Scalable Performance Analysis for Vision-Language Models [26.45624201546282]
統合視覚言語モデルは、様々なタスクセットに対して優れたパフォーマンスを示している。
本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。
従来,CLIPは単語の袋のように振る舞い,名詞や動詞でより良く振る舞うことが確認された。
論文 参考訳(メタデータ) (2023-05-30T06:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。