論文の概要: Temporal Difference Calibration in Sequential Tasks: Application to Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2604.20472v1
- Date: Wed, 22 Apr 2026 11:58:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.114321
- Title: Temporal Difference Calibration in Sequential Tasks: Application to Vision-Language-Action Models
- Title(参考訳): 逐次課題における時間差校正:視覚・言語・行動モデルへの応用
- Authors: Shelly Francis-Meretzki, Mirco Mutti, Yaniv Romano, Aviv Tamar,
- Abstract要約: 本稿ではBrierスコアを逐次拡張し、バイナリ結果に対して、そのリスク最小化器がVLAポリシーの値関数と一致することを示す。
この接続は不確実な校正と強化学習を橋渡しし、時間差(TD)値の推定を可能にする。
興味深いことに、VLAの単一ステップの動作確率は、TDを用いて校正すると、競合する不確実性推定が得られる。
- 参考スコア(独自算出の注目度): 42.27626776636064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in vision-language-action (VLA) models for robotics have highlighted the importance of reliable uncertainty quantification in sequential tasks. However, assessing and improving calibration in such settings remains mostly unexplored, especially when only partial trajectories are observed. In this work, we formulate sequential calibration for episodic tasks, where task-success confidence is produced along an episode, while success is determined at the end of it. We introduce a sequential extension of the Brier score and show that, for binary outcomes, its risk minimizer coincides with the VLA policy's value function. This connection bridges uncertainty calibration and reinforcement learning, enabling the use of temporal-difference (TD) value estimation as a principled calibration mechanism over time. We empirically show that TD calibration improves performance relative to the state-of-the-art on simulated and real-robot data. Interestingly, we show that when calibrated using TD, the VLA's single-step action probabilities can yield competitive uncertainty estimates, in contrast to recent findings that employed different calibration techniques.
- Abstract(参考訳): ロボット工学における視覚言語行動モデル(VLA)の最近の進歩は、シーケンシャルタスクにおける信頼性のある不確実性定量化の重要性を強調している。
しかし、特に部分軌道のみが観測された場合、このような条件下でのキャリブレーションの評価と改善は未解明のままである。
本研究では,課題・課題の信頼度をエピソードに沿って生成し,その末尾に成功度を判定するエピソードタスクのシーケンシャルキャリブレーションを定式化する。
本稿ではBrierスコアを逐次拡張し、バイナリ結果に対して、そのリスク最小化器がVLAポリシーの値関数と一致することを示す。
この接続は不確実な校正と強化学習を橋渡しし、時間とともに時間的差分値の推定を原則的校正機構として利用することができる。
実験により,TDキャリブレーションにより,シミュレーションおよび実ロボットデータ上での最先端技術と比較して性能が向上することを示す。
興味深いことに、VLAの単一ステップの動作確率は、TDを用いて校正すると、異なる校正技術を用いた最近の知見とは対照的に、競合する不確実性の推定が得られる。
関連論文リスト
- Transformer-Based Predictive Maintenance for Risk-Aware Instrument Calibration [0.13543803103181612]
キャリブレーションスケジューリングを予測的メンテナンス問題として検討する。
我々は、NASA C-MAPSSベンチマークをキャリブレーション設定に適合させる。
本研究では,条件に基づくキャリブレーションを共同予測と決定の問題とみなすことができることを示す。
論文 参考訳(メタデータ) (2026-03-19T06:32:01Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - DATS: Distance-Aware Temperature Scaling for Calibrated Class-Incremental Learning [13.864609787260298]
連続学習(CL)は、新しいクラスの連続から1つのモデルを漸進的に学習できる能力に注目が集まっている。
安全クリティカルなアプリケーションでは、予測モデルは、その不確実性(すなわち、ターゲットイベントの真の頻度に一致した信頼スコア)を確実に伝達することができる。
本研究では,プロトタイプに基づく距離推定と距離認識キャリブレーションを組み合わせた距離認識温度スケーリング(DATS)を提案し,タスク近接を推定し,先行タスク情報なしで適応温度を割り当てる。
論文 参考訳(メタデータ) (2025-09-25T13:46:56Z) - Confidence Calibration in Vision-Language-Action Models [2.230383995796716]
信頼できるロボットの振る舞いは、高いレベルのタスク成功と、それが成功する可能性の確実な定量化を必要とする。
本稿では,視覚言語行動(VLA)基礎モデルにおける信頼度校正に関する最初の体系的研究について述べる。
論文 参考訳(メタデータ) (2025-07-23T10:26:10Z) - O-TPT: Orthogonality Constraints for Calibrating Test-time Prompt Tuning in Vision-Language Models [17.56932003351322]
視覚言語モデル(VLM)のテスト時プロンプトチューニングは、微調整なしでラベルのないデータで学習できることから注目されている。
結果として得られたモデルはキャリブレーションの低さを示す傾向にあり、これらのモデルの信頼性と信頼性に疑問を呈する。
我々は、学習可能なプロンプトに対応するテキストの特徴に直交制約を導入する、O-TPTと呼ばれる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-03-15T11:45:54Z) - Rethinking Early Stopping: Refine, Then Calibrate [49.966899634962374]
キャリブレーション・リファインメント分解の新規な変分定式化について述べる。
我々は,校正誤差と精錬誤差が訓練中に同時に最小化されないという理論的,実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-01-31T15:03:54Z) - Large Language Models are Miscalibrated In-Context Learners [22.30783674111999]
本研究では,学習方法の異なる選択にまたがる行動の詳細な分析を行う。
低リソース環境における全ての学習手法に誤校正問題が存在することを観察する。
最大確率で自己認識を行うことで,ロバストかつ校正された予測が得られることがわかった。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - Threshold-Consistent Margin Loss for Open-World Deep Metric Learning [42.03620337000911]
画像検索にDeep Metric Learning (DML) で使われている既存の損失は、しばしば非均一なクラス内およびクラス間表現構造に繋がる。
不整合はしばしば、商用画像検索システムを展開する際のしきい値選択過程を複雑にする。
クラス間の動作特性の分散を定量化するOPIS(Operating-Point-Inconsistency-Score)と呼ばれる,新しい分散に基づく尺度を提案する。
論文 参考訳(メタデータ) (2023-07-08T21:16:41Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。