論文の概要: VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.10085v2
- Date: Mon, 29 Sep 2025 20:07:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 19:34:21.402852
- Title: VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models
- Title(参考訳): VITA:視覚言語モデルのテスト時間適応によるゼロショット値関数
- Authors: Christos Ziakas, Alessandra Russo,
- Abstract要約: VITAはゼロショット値関数学習法であり、テスト時間適応によって両方の能力を増強する。
オフライン強化学習において,VITAのゼロショット値推定が報酬形成に有効であることを示す。
- 参考スコア(独自算出の注目度): 49.78447737655287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) show promise as zero-shot goal-conditioned value functions, but their frozen pre-trained representations limit generalization and temporal reasoning. We introduce VITA, a zero-shot value function learning method that enhances both capabilities via test-time adaptation. At inference, a lightweight adaptation module is updated via a gradient step on a meta-learned self-supervised loss, such that each test-time update improves value estimation. By updating sequentially over a trajectory, VITA encodes history into its parameters, addressing the temporal reasoning limitations. To mitigate shortcut learning, we propose a dissimilarity-based sampling strategy that selects semantically diverse segments of the trajectory during training. In real-world robotic manipulation tasks, VITA generalizes from a single training environment to diverse out-of-distribution tasks, environments, and embodiments, outperforming the state-of-the-art zero-shot method using autoregressive VLMs. Furthermore, we demonstrate that VITA's zero-shot value estimates can be utilized for reward shaping in offline reinforcement learning, resulting in multi-task policies on the Meta-World benchmark that exceed the performance of those trained with the simulation's fuzzy-logic dense rewards.
- Abstract(参考訳): VLM(Vision-Language Models)は、ゼロショットのゴール条件付き値関数として約束を示すが、凍結した事前学習された表現は一般化と時間的推論を制限する。
テスト時間適応により両機能を強化するゼロショット値関数学習法であるVITAを導入する。
推論時に、メタ学習した自己教師付き損失の勾配ステップを介して軽量適応モジュールを更新し、各テストタイム更新が値推定を改善する。
トラジェクトリ上で逐次更新することで、VITAは履歴をパラメータにエンコードし、時間的推論の制限に対処する。
ショートカット学習を緩和するために,訓練中の軌跡の意味的に多様な部分を選択する異種性に基づくサンプリング戦略を提案する。
実世界のロボット操作タスクでは、VITAは単一トレーニング環境から様々なアウト・オブ・ディストリビューションタスク、環境、実施環境までを一般化し、自己回帰型VLMを用いた最先端のゼロショット法よりも優れている。
さらに、VTAのゼロショット値推定は、オフライン強化学習における報酬形成に利用でき、その結果、メタワールドベンチマークにおけるマルチタスクポリシーは、シミュレーションのファジィ・ロジックな厳密な報酬で訓練された者を上回ることが示される。
関連論文リスト
- Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。
本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。
目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文 参考訳(メタデータ) (2025-07-24T21:11:39Z) - Your Pretrained Model Tells the Difficulty Itself: A Self-Adaptive Curriculum Learning Paradigm for Natural Language Understanding [53.63482987410292]
本稿では,事前学習言語モデルにより予測される難易度に基づいて,微調整例を優先する自己適応型カリキュラム学習パラダイムを提案する。
本手法は,4つの自然言語理解(NLU)データセットを用いて,二項分類と多項分類の両方を対象とする手法について検討した。
論文 参考訳(メタデータ) (2025-07-13T19:36:17Z) - Space Rotation with Basis Transformation for Training-free Test-Time Adaptation [25.408849667998993]
テスト時間適応のための基底変換を用いた訓練不要な特徴空間回転を提案する。
クラス間の固有の区別を利用することで、元の特徴空間を再構成し、それを新しい表現にマッピングする。
本手法は,性能と効率の両面で最先端技術より優れている。
論文 参考訳(メタデータ) (2025-02-27T10:15:34Z) - Adaptive Cascading Network for Continual Test-Time Adaptation [12.718826132518577]
そこで本研究では,テスト時に対象ドメインの列に事前学習したソースモデルを適応させることを目標とする連続的なテスト時間適応の問題について検討する。
テストタイムトレーニングの既存の方法には、いくつかの制限がある。
論文 参考訳(メタデータ) (2024-07-17T01:12:57Z) - BaFTA: Backprop-Free Test-Time Adaptation For Zero-Shot Vision-Language Models [20.88680592729709]
本稿では,視覚言語モデルの試験時間適応のためのバックプロパゲーションフリーアルゴリズムBaFTAを提案する。
BaFTAは、投影された埋め込み空間内のオンラインクラスタリングを使用して、クラスセントロイドを直接推定する。
我々は,BaFTAが最先端の試験時間適応手法を効率と効率の両方で一貫して上回っていることを実証した。
論文 参考訳(メタデータ) (2024-06-17T08:16:24Z) - A Lost Opportunity for Vision-Language Models: A Comparative Study of Online Test-Time Adaptation for Vision-Language Models [3.0495235326282186]
ディープラーニングでは、分散シフトに対する堅牢性を維持することが重要です。
この研究は、視覚言語基礎モデルをテスト時に適用するための幅広い可能性を探究する。
論文 参考訳(メタデータ) (2024-05-23T18:27:07Z) - In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model [13.983810804606264]
In-Context Prompt Learning (InCPL) を提案する。
InCPLは、コンテキスト情報としてラベル付き例がほとんどない新しいテストサンプルを関連付けている。
テストサンプルに適した視覚的プロンプトを最適化するために、コンテキスト対応の教師なし損失を導入する。
論文 参考訳(メタデータ) (2024-03-10T08:15:51Z) - Revisiting Dynamic Evaluation: Online Adaptation for Large Language
Models [88.47454470043552]
我々は、動的評価(動的評価)としても知られる、テスト時の言語モデルのパラメータをオンラインで微調整する問題を考察する。
オンライン適応はパラメータを時間的に変化する状態に変換し、メモリを重み付けしたコンテキスト長拡張の形式を提供する。
論文 参考訳(メタデータ) (2024-03-03T14:03:48Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Forging Multiple Training Objectives for Pre-trained Language Models via
Meta-Learning [97.28779163988833]
複数の事前学習目標が単一目的言語モデリングの理解能力の欠如を埋める。
メタラーニングに基づく新しい適応型サンプリングシステムであるtextitMOMETAS を提案し,任意の事前学習対象に対して潜時サンプリングパターンを学習する。
論文 参考訳(メタデータ) (2022-10-19T04:38:26Z) - Meta-learning the Learning Trends Shared Across Tasks [123.10294801296926]
グラディエントベースのメタ学習アルゴリズムは、限られたデータで新しいタスクに素早く適応する。
既存のメタ学習アプローチは、適応中の現在のタスク情報にのみ依存する。
パターン認識型メタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-10-19T08:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。