論文の概要: TwiFF (Think With Future Frames): A Large-Scale Dataset for Dynamic Visual Reasoning
- arxiv url: http://arxiv.org/abs/2602.10675v1
- Date: Wed, 11 Feb 2026 09:20:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.640452
- Title: TwiFF (Think With Future Frames): A Large-Scale Dataset for Dynamic Visual Reasoning
- Title(参考訳): TwiFF:動的ビジュアル推論のための大規模データセット
- Authors: Junhua Liu, Zhangcheng Wang, Zhike Han, Ningli Wang, Guotao Liang, Kun Kuang,
- Abstract要約: VCoT(Visual Chain-of-Thought)は、視覚的知覚を中間的推論ステップに統合することにより、マルチモーダル推論を強化するための有望なパラダイムとして登場した。
TwiFFは、270万ドルのビデオクリップから派生した、最初の大規模、時間的に基底付けられたVCoTデータセットである。
TwiFFは既存のVCoT手法やテキスト・チェーン・オブ・ソート・ベースラインを動的推論タスクで大幅に上回っていることを示す。
- 参考スコア(独自算出の注目度): 39.81570843186615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Chain-of-Thought (VCoT) has emerged as a promising paradigm for enhancing multimodal reasoning by integrating visual perception into intermediate reasoning steps. However, existing VCoT approaches are largely confined to static scenarios and struggle to capture the temporal dynamics essential for tasks such as instruction, prediction, and camera motion. To bridge this gap, we propose TwiFF-2.7M, the first large-scale, temporally grounded VCoT dataset derived from $2.7$ million video clips, explicitly designed for dynamic visual question and answer. Accompanying this, we introduce TwiFF-Bench, a high-quality evaluation benchmark of $1,078$ samples that assesses both the plausibility of reasoning trajectories and the correctness of final answers in open-ended dynamic settings. Building on these foundations, we propose the TwiFF model, a unified modal that synergistically leverages pre-trained video generation and image comprehension capabilities to produce temporally coherent visual reasoning cues-iteratively generating future action frames and textual reasoning. Extensive experiments demonstrate that TwiFF significantly outperforms existing VCoT methods and Textual Chain-of-Thought baselines on dynamic reasoning tasks, which fully validates the effectiveness for visual question answering in dynamic scenarios. Our code and data is available at https://github.com/LiuJunhua02/TwiFF.
- Abstract(参考訳): VCoT(Visual Chain-of-Thought)は、視覚的知覚を中間的推論ステップに統合することにより、マルチモーダル推論を強化するための有望なパラダイムとして登場した。
しかしながら、既存のVCoTアプローチは静的シナリオに限られており、命令、予測、カメラモーションといったタスクに不可欠な時間的ダイナミクスを捉えるのに苦労している。
このギャップを埋めるために, TwiFF-2.7Mを提案する。このデータセットは, 動的視覚的質問と回答を明示的に設計した, ビデオクリップ2.7ドルのVCoTデータセットである。
TwiFF-Benchは1078ドルのサンプルの高品質な評価ベンチマークで、推論軌跡の妥当性と、オープンエンドな動的設定における最終回答の正しさの両方を評価する。
これらの基礎の上に構築されたTwiFFモデルは,事前学習した映像生成と画像理解機能を相乗的に活用し,時間的コヒーレントな視覚的推論を創出し,将来的な行動フレームとテキスト的推論を生成する。
TwiFFは、動的推論タスクにおいて既存のVCoTメソッドやテキスト・チェーン・オブ・ワットのベースラインを大幅に上回っており、動的シナリオにおける視覚的質問応答の有効性を十分に検証している。
私たちのコードとデータはhttps://github.com/LiuJunhua02/TwiFF.comで公開されています。
関連論文リスト
- Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models [56.851611990473174]
動的ビジュアルコンテンツに対する推論は、大きな言語モデルにとって依然として中心的な課題である。
本稿では,時間的精度と推論一貫性を両立させる強化学習手法を提案する。
結果のモデルであるVideo R2は、複数のベンチマークでTAC、VAS、精度を一貫して向上させる。
論文 参考訳(メタデータ) (2025-11-28T18:59:58Z) - StreamingCoT: A Dataset for Temporal Dynamics and Multimodal Chain-of-Thought Reasoning in Streaming VideoQA [60.86024022291499]
ストリーミングビデオストリームにおける時間的に進化する推論のために明示的に設計された最初のデータセットであるStreamingCoTを紹介する。
本フレームワークは,秒単位の高密度な記述を生成し,類似性融合により時間依存性のセマンティックセグメントを構築する。
このデータセットは、ストリーミングビデオ理解、複雑な時間的推論、マルチモーダル推論の研究を促進する基盤を確立する。
論文 参考訳(メタデータ) (2025-10-29T09:47:38Z) - VTimeCoT: Thinking by Drawing for Video Temporal Grounding and Reasoning [60.42623437635971]
ビデオの時間的グラウンドと推論のためのトレーニング不要のフレームワークであるVTimeCoTを紹介する。
提案フレームワークは,プログレッシブバーの新しいビジュアルツールとして,プラグアンドプレイプログレッシブバー統合ツールと高効率ハイライトツールの2つを組み込んでいる。
提案手法は,ビデオ時間的グラウンドリングと推論に基づく質問応答のタスクにおいて,Qwen2VL-7BとGPT4oベースラインの両方で大幅な性能向上を示す。
論文 参考訳(メタデータ) (2025-10-16T13:29:02Z) - VCoT-Grasp: Grasp Foundation Models with Visual Chain-of-Thought Reasoning for Language-driven Grasp Generation [67.98487725287835]
VCoT-Graspは、視覚的連鎖推論を取り入れたエンドツーエンドの把握基盤モデルであり、把握生成のための視覚的理解を強化する。
トレーニングのために、我々は167Kの合成画像と1.36Mのグリップを含む大規模なデータセットVCoT-GraspSetを洗練、導入した。
本手法は, 達成率を大幅に向上させ, 未知の物体, 背景, 邪魔者に効果的に一般化する。
論文 参考訳(メタデータ) (2025-10-07T11:50:26Z) - FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework [26.661935208583756]
VVT(Virtual try-on)技術は、eコマース広告やエンターテイメントに将来性があるとして、学術的な関心を集めている。
本研究では,現実のシナリオにおける適応性を高めるために,多種多様な人間中心データを活用することが可能なDreamVVTを提案する。
第1段階では、入力ビデオから代表フレームをサンプリングし、視覚言語モデル(VLM)と統合された多フレーム試行モデルを用いて、高忠実で意味論的に整合した試行画像を合成する。
第2段階では、微粒な動きと外観記述とともに骨格図が作成される。
論文 参考訳(メタデータ) (2025-08-04T18:27:55Z) - Multi-Step Visual Reasoning with Visual Tokens Scaling and Verification [22.871255950998016]
本稿では,MLLMが視覚コンテンツに対して検証者誘導推論を行うことを可能にする,推論時ビジュアルトークンスケーリングのための新しいフレームワークを提案する。
提案手法は,様々な視覚的推論ベンチマークにおいて,既存手法よりも優れていた。
これらの結果は,次世代MLLMにおける微粒でコンテキスト対応の視覚的推論を実現するための動的推論機構の実現を実証するものである。
論文 参考訳(メタデータ) (2025-06-08T17:38:49Z) - v1: Learning to Point Visual Tokens for Multimodal Grounded Reasoning [27.688428439248607]
簡単なポイント・アンド・コピーアプローチによるアクティブな視覚的参照を可能にする軽量な拡張であるv1を紹介する。
これにより、モデルは関連するイメージパッチを特定し、埋め込みを推論ストリームにコピーすることができる。
我々のポインティング戦略では、MLLMはセマンティックな表現をキーとして直接イメージパッチを選択でき、知覚的証拠はモデルの推論と同じ空間に埋め込まれている。
論文 参考訳(メタデータ) (2025-05-24T19:30:47Z) - Bridging the Dynamic Perception Gap: Training-Free Draft Chain-of-Thought for Dynamic Multimodal Spatial Reasoning [18.7712668000592]
動的空間推論の評価を目的とした新しい迷路ナビゲーションベンチマークを提案する。
実験により、動的視覚的ドラフトによる推論連鎖の増大、入力画像のオーバーレイドは、従来の手法よりも著しく優れていることが示された。
D2R(Dynamic Draft-Augmented Reasoning)は、テキストCoTと対応するビジュアルドラフトをシームレスにMLLMに統合するトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-05-22T12:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。