論文の概要: PROGRESSLM: Towards Progress Reasoning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.15224v1
- Date: Wed, 21 Jan 2026 17:56:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.485008
- Title: PROGRESSLM: Towards Progress Reasoning in Vision-Language Models
- Title(参考訳): ProGRESSLM:ビジョンランゲージモデルにおけるプログレッシブ推論に向けて
- Authors: Jianshu Zhang, Chengxuan Qian, Haosen Sun, Haoran Lu, Dingcheng Wang, Letian Xue, Han Liu,
- Abstract要約: タスクの進捗を見積もるには、静的な視覚的内容を認識するのではなく、長い水平運動を推理する必要がある。
本稿では,視覚言語モデルにおける進捗推論を体系的に評価するベンチマークであるProgress-Benchを紹介する。
さらに、トレーニングフリープロンプトとトレーニングベースアプローチの両方を通じて、人間にインスパイアされた2段階進行推論パラダイムについて検討する。
- 参考スコア(独自算出の注目度): 10.481670664271073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating task progress requires reasoning over long-horizon dynamics rather than recognizing static visual content. While modern Vision-Language Models (VLMs) excel at describing what is visible, it remains unclear whether they can infer how far a task has progressed from partial observations. To this end, we introduce Progress-Bench, a benchmark for systematically evaluating progress reasoning in VLMs. Beyond benchmarking, we further explore a human-inspired two-stage progress reasoning paradigm through both training-free prompting and training-based approach based on curated dataset ProgressLM-45K. Experiments on 14 VLMs show that most models are not yet ready for task progress estimation, exhibiting sensitivity to demonstration modality and viewpoint changes, as well as poor handling of unanswerable cases. While training-free prompting that enforces structured progress reasoning yields limited and model-dependent gains, the training-based ProgressLM-3B achieves consistent improvements even at a small model scale, despite being trained on a task set fully disjoint from the evaluation tasks. Further analyses reveal characteristic error patterns and clarify when and why progress reasoning succeeds or fails.
- Abstract(参考訳): タスクの進捗を見積もるには、静的な視覚的コンテンツを認識するのではなく、長い水平のダイナミクスを推論する必要がある。
現代のビジョン・ランゲージ・モデル(VLM)は、何が見えるかを記述するのに優れているが、あるタスクが部分的な観察からどこまで進んだかを推測できるかどうかは不明である。
そこで本研究では,VLMの進捗推論を体系的に評価するベンチマークであるProgress-Benchを紹介する。
ベンチマークの他に、トレーニングフリープロンプトとトレーニングベースアプローチの両方を通じて、人間にインスパイアされた2段階のプログレス推論パラダイムについても検討する。
14のVLMの実験では、ほとんどのモデルはまだタスク進捗推定の準備が整っていないことが示され、デモのモダリティや視点の変化に対する感受性が示され、また解決不可能なケースの扱いが不十分であった。
構造化進捗推論を強制するトレーニングフリープロンプトは、限定的かつモデル依存的な利得をもたらすが、トレーニングベースのProgressLM-3Bは、評価タスクから完全に分離されたタスクセットでトレーニングされているにもかかわらず、小さなモデルスケールでも一貫した改善を達成している。
さらに、特徴的誤りパターンを明らかにし、いつ、なぜ進行推論が成功するか、失敗するのかを明らかにする。
関連論文リスト
- EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models [57.75717492488268]
VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行う。
Supervised Finetuning (SFT) では、タスク毎の数百のデモ、厳格に軌跡を記憶すること、デプロイメント条件がトレーニングから逸脱したときに適応できないことなどが求められている。
EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-16T18:26:38Z) - Learning Affordances at Inference-Time for Vision-Language-Action Models [50.93181349331096]
ロボット工学において、VLA(Vision-Language-Action Model)は複雑な制御タスクを解くための有望な道を提供する。
本稿では,VLAの低レベルポリシーを過去の経験を条件とした高レベルVLMに接続するLITEN(Learning from Inference-Time Execution)を紹介する。
提案手法は,低レベルVLAの計画の生成と実行を行う推論フェーズと,その結果を反映した評価フェーズとを反復する。
論文 参考訳(メタデータ) (2025-10-22T16:43:29Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Real-Time Progress Prediction in Reasoning Language Models [41.08450684104994]
本研究では,リアルタイムの進捗予測が実現可能かどうかを考察する。
我々は進捗を識別し、推論状態の分類のために線形プローブを訓練する。
次に、2段階の微調整手法を導入し、推論モデルにより進捗予測を生成する。
論文 参考訳(メタデータ) (2025-06-29T15:01:01Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。