論文の概要: Process-of-Thought Reasoning for Videos
- arxiv url: http://arxiv.org/abs/2602.07689v1
- Date: Sat, 07 Feb 2026 20:25:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.760305
- Title: Process-of-Thought Reasoning for Videos
- Title(参考訳): ビデオのプロセス・オブ・ソート推論
- Authors: Jusheng Zhang, Kaitong Cai, Jian Wang, Yongsen Zheng, Kwok-Yan Lam, Keze Wang,
- Abstract要約: Process-of-Thought (PoT) Reasoning for Videosは、ビデオ推論を軽量で検証可能なステップのシーケンスに構造化することで、推論プロセスを明確にするフレームワークである。
PoT は (i) 時間的エビデンス選択、 (ii) ステップワイズ状態更新、 (iii) 制限された応答合成をインターリーブし、ビデオエビデンスのトレーサビリティを維持しながら仮説を段階的に洗練することを可能にする。
- 参考スコア(独自算出の注目度): 33.74677144833003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video understanding requires not only recognizing visual content but also performing temporally grounded, multi-step reasoning over long and noisy observations. We propose Process-of-Thought (PoT) Reasoning for Videos, a framework that makes the reasoning process explicit by structuring video inference into a sequence of lightweight, verifiable steps. PoT interleaves (i) temporal evidence selection, (ii) step-wise state updates, and (iii) constrained answer synthesis, enabling the model to progressively refine hypotheses while maintaining traceability to video evidence. The framework is designed to be model-agnostic and can be plugged into existing vision-language backbones, supporting both closed-book reasoning and evidence-augmented reasoning with external tools. We further introduce a unified representation for PoT traces that aligns intermediate decisions with temporal segments, which improves robustness to distractors and reduces hallucinated explanations. Extensive experiments on standard video reasoning tasks demonstrate that PoT consistently improves factual correctness and temporal grounding, while providing interpretable reasoning traces for diagnosis and downstream use.
- Abstract(参考訳): ビデオ理解には、視覚的内容を認識するだけでなく、長時間のノイズの多い観察に対して、時間的基盤と多段階の推論を行う必要がある。
本稿では,ビデオ推論を軽量で検証可能なステップのシーケンスに構造化することで,推論プロセスを明確にするフレームワークであるProcess-of-Thought (PoT) Reasoning for Videosを提案する。
PoTインターリーブ
(i)時間的証拠選択
(二)段階的状態更新、及び
第三に、ビデオ証拠のトレーサビリティを維持しつつ、仮説を段階的に洗練することのできる、限定された回答合成。
このフレームワークはモデルに依存しないように設計されており、既存の視覚言語バックボーンにプラグインすることができ、クローズドブック推論とエビデンス強化推論の両方を外部ツールでサポートしている。
さらに、中間決定を時間セグメントに整合させるPoTトレースの統一表現を導入し、邪魔者に対するロバスト性を改善し、幻覚的説明を減らす。
標準的なビデオ推論タスクに関する広範な実験により、PoTは診断と下流使用のための解釈可能な推論トレースを提供しながら、事実の正しさと時間的根拠を一貫して改善することを示した。
関連論文リスト
- ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning [44.49803237328707]
ReVSegは、事前訓練された視覚言語モデルのネイティブインターフェースにおけるシーケンシャルな決定として推論を実行する。
我々は、多段階推論連鎖を最適化するために強化学習を採用し、モデルが結果駆動信号から判断品質を自己定義できるようにする。
論文 参考訳(メタデータ) (2025-12-02T14:44:12Z) - Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding [56.7383554589569]
人間のような知性には長いビデオ理解が不可欠であり、時間的文脈を超越したコヒーレントな認識と推論を可能にする。
強化学習に基づく投機的時間的推論フレームワークであるSpecTempを提案する。
我々はSpecTempが競争精度を維持するだけでなく、既存の思考とフレームの手法と比較して推論を著しく加速することを示した。
論文 参考訳(メタデータ) (2025-11-30T09:27:59Z) - Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models [56.851611990473174]
動的ビジュアルコンテンツに対する推論は、大きな言語モデルにとって依然として中心的な課題である。
本稿では,時間的精度と推論一貫性を両立させる強化学習手法を提案する。
結果のモデルであるVideo R2は、複数のベンチマークでTAC、VAS、精度を一貫して向上させる。
論文 参考訳(メタデータ) (2025-11-28T18:59:58Z) - When Thinking Drifts: Evidential Grounding for Robust Video Reasoning [68.75730050161219]
CoT(Chain-of-Thought)メカニズムは、テキストベースのタスクにおける推論を強化した。
CoTはビデオ推論のパフォーマンスを劣化させ、冗長だが内部のモノローグを誤解させる。
ビジュアルエビデンス・リワード(Visual Evidence Reward、VER)は、ビジュアルエビデンスに根ざした推論トレースの生成に明示的に報いる強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-10-07T16:03:33Z) - VITED: Video Temporal Evidence Distillation [49.38292490256531]
そこで我々は,チェーン・オブ・エビデンス推論による複雑なビデオ質問応答について検討した。
モデルは、固定数のフレームを均一にサンプリングするため、多段階の推論に苦労する。
本稿では,既存のビデオQAデータセットをエビデンス・アソシエーション・チェーンで拡張するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T06:30:02Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。