論文の概要: CycliST: A Video Language Model Benchmark for Reasoning on Cyclical State Transitions
- arxiv url: http://arxiv.org/abs/2512.01095v1
- Date: Sun, 30 Nov 2025 21:28:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.58022
- Title: CycliST: A Video Language Model Benchmark for Reasoning on Cyclical State Transitions
- Title(参考訳): CycliST: サイクル状態遷移の推論のためのビデオ言語モデルベンチマーク
- Authors: Simon Kohaut, Daniel Ochs, Shun Zhang, Benedict Flade, Julian Eggert, Kristian Kersting, Devendra Singh Dhami,
- Abstract要約: 本稿では,ビデオ言語モデル(VLM)を,周期的状態遷移に対するテキスト推論能力に基づいて評価するための新しいベンチマークデータセットであるCycleiSTを提案する。
我々は、オープンソースとプロプライエタリの両方の最先端のVLMによる広範な実験を行い、循環力学への一般化の限界を明らかにする。
以上の結果から,現在のVLMは周期的パターンを確実に検出・活用することが困難であり,時間的理解の欠如,動き中の物体数などのシーンから定量的な洞察を抽出できないことが示唆された。
- 参考スコア(独自算出の注目度): 35.80224795551762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present CycliST, a novel benchmark dataset designed to evaluate Video Language Models (VLM) on their ability for textual reasoning over cyclical state transitions. CycliST captures fundamental aspects of real-world processes by generating synthetic, richly structured video sequences featuring periodic patterns in object motion and visual attributes. CycliST employs a tiered evaluation system that progressively increases difficulty through variations in the number of cyclic objects, scene clutter, and lighting conditions, challenging state-of-the-art models on their spatio-temporal cognition. We conduct extensive experiments with current state-of-the-art VLMs, both open-source and proprietary, and reveal their limitations in generalizing to cyclical dynamics such as linear and orbital motion, as well as time-dependent changes in visual attributes like color and scale. Our results demonstrate that present-day VLMs struggle to reliably detect and exploit cyclic patterns, lack a notion of temporal understanding, and are unable to extract quantitative insights from scenes, such as the number of objects in motion, highlighting a significant technical gap that needs to be addressed. More specifically, we find no single model consistently leads in performance: neither size nor architecture correlates strongly with outcomes, and no model succeeds equally well across all tasks. By providing a targeted challenge and a comprehensive evaluation framework, CycliST paves the way for visual reasoning models that surpass the state-of-the-art in understanding periodic patterns.
- Abstract(参考訳): 本稿では,ビデオ言語モデル(VLM)を,周期的状態遷移に対するテキスト推論能力に基づいて評価するための新しいベンチマークデータセットであるCycleiSTを提案する。
CycliSTは、オブジェクトの動きと視覚特性の周期的なパターンを特徴とする合成、リッチな構造化されたビデオシーケンスを生成することで、現実世界のプロセスの基本的な側面をキャプチャする。
CycliSTは、サイクリックオブジェクトの数、シーンクラッタ、照明条件の変動、時空間認知における最先端モデルへの挑戦を通じて、徐々に困難を増す階層評価システムを採用している。
我々は、現在最先端のVLMを用いて、オープンソースとプロプライエタリの両方で広範な実験を行い、線形や軌道運動のような循環力学への一般化の限界を明らかにし、色やスケールのような視覚特性の時間依存性の変化を明らかにした。
以上の結果から,現在のVLMでは,周期的パターンを確実に検出・活用することが困難であり,時間的理解の欠如,動作中の物体の数などのシーンから定量的な洞察を抽出することができず,対処すべき重要な技術的ギャップを浮き彫りにしていることがわかった。
サイズもアーキテクチャも結果と強く相関しておらず、すべてのタスクで同じくらいうまく機能するモデルはありません。
目標とする課題と包括的な評価フレームワークを提供することで、CycliSTは、周期パターンの理解における最先端を超越した視覚的推論モデルを実現する。
関連論文リスト
- Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。
提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-10-04T21:48:40Z) - Neural Persistence Dynamics [8.197801260302642]
時間発展する点雲のトポロジにおける力学を学習する問題を考察する。
提案したモデル - $textitNeural Persistence Dynamics$ - は、パラメータ回帰タスクの多種多様なセットで最先端のパフォーマンスを大幅に上回る。
論文 参考訳(メタデータ) (2024-05-24T17:20:18Z) - OpenSTL: A Comprehensive Benchmark of Spatio-Temporal Predictive
Learning [67.07363529640784]
提案するOpenSTLは,一般的なアプローチを再帰的モデルと再帰的モデルに分類する。
我々は, 合成移動物体軌道, 人間の動き, 運転シーン, 交通流, 天気予報など, さまざまな領域にわたるデータセットの標準評価を行う。
リカレントフリーモデルは、リカレントモデルよりも効率と性能のバランスが良いことがわかった。
論文 参考訳(メタデータ) (2023-06-20T03:02:14Z) - Time Series Continuous Modeling for Imputation and Forecasting with Implicit Neural Representations [15.797295258800638]
本稿では,実世界のデータでしばしば発生する課題に対処するために,時系列計算と予測のための新しいモデリング手法を提案する。
本手法はシリーズの進化力学の連続時間依存モデルに依存する。
メタラーニングアルゴリズムによって駆動される変調機構は、観測されたタイムウインドウを超えて、見えないサンプルや外挿への適応を可能にする。
論文 参考訳(メタデータ) (2023-06-09T13:20:04Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Learning Temporal Dynamics from Cycles in Narrated Video [85.89096034281694]
時が経つにつれて世界がどのように変化するかをモデル化する学習問題に対する自己監督型ソリューションを提案します。
私たちのモデルは、前方および後方の時間を予測するためにモダリティに依存しない関数を学習します。
将来的な動作の予測や画像の時間的順序付けなど,様々なタスクに対して,学習されたダイナミクスモデルを適用する。
論文 参考訳(メタデータ) (2021-01-07T02:41:32Z) - Unsupervised Video Decomposition using Spatio-temporal Iterative
Inference [31.97227651679233]
マルチオブジェクトシーンの分解は、学習において急速に進化する問題である。
色情報のないモデルでも精度が高いことを示す。
本稿では, モデルの分解, セグメント化予測能力を実証し, いくつかのベンチマークデータセットにおいて, 最先端のモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-25T22:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。