論文の概要: Pause and Think: A Dataset and Benchmark for Video-Grounded Assistive Action Suggestion
- arxiv url: http://arxiv.org/abs/2606.00616v2
- Date: Thu, 04 Jun 2026 03:08:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 19:21:32.907815
- Title: Pause and Think: A Dataset and Benchmark for Video-Grounded Assistive Action Suggestion
- Title(参考訳): Pause and Think: ビデオ集約型補助行動提案のためのデータセットとベンチマーク
- Authors: Shivam Singh, Saptarshi Majumder, Pratik Prabhanjan Brahma, Zicheng Liu, Emad Barsoum,
- Abstract要約: これは、モデルが一時停止し、視覚的エビデンスを推論し、実行可能な応答を生成することを奨励する、推論中心のトレーニングデータセットです。
このデータセットは、回答の生成に先立って構造化推論を促進し、人間のようなシーンベースの支援に向けてモデルを導く。
実験結果から,目標推論により,学習データを超えた行動的,視覚的なガイダンスを,コンパクトなモデルで提供できることが示唆された。
- 参考スコア(独自算出の注目度): 13.38458388981041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Vision-Language Models (VLMs) struggle with grounded reasoning, temporal consistency, and context aware planning in videos. We introduce pause-and-think-T, a reasoning-centric training dataset that encourages models to pause, reason over visual evidence, and produce concise, actionable responses. The dataset promotes structured reasoning prior to answer generation, guiding models toward human-like, scene-grounded assistance. We fine-tune a compact 4B-parameter model and evaluate it on our pause-and-think-B benchmark targeting contextual understanding and goal planning tasks. The model achieves 58.0% accuracy at 59x fewer parameters than Qwen3-VL-235B (58.9%), matching GPT-5.2 on scene understanding and surpassing GPT-4o. Beyond our benchmark, it also shows strong out-of-distribution performance on EgoThink and TempCompass, with substantial gains in affordance, assistance, attribution recognition, situated reasoning, and temporal order, without benchmark-specific training. Our results indicate that targeted reasoning supervision enables compact models to deliver actionable, visually grounded guidance while generalizing beyond training data, without requiring large-scale model expansion.
- Abstract(参考訳): 近年のビジョン・ランゲージ・モデル(VLM)は、ビデオにおける根拠付き推論、時間的一貫性、コンテキストを考慮した計画に苦慮している。
これは推論中心のトレーニングデータセットで、モデルに一時停止を奨励し、視覚的証拠を推論し、簡潔で行動可能な応答を生成する。
このデータセットは、回答の生成に先立って構造化推論を促進し、人間のようなシーンベースの支援に向けてモデルを導く。
コンパクトな4Bパラメータモデルを微調整し、文脈的理解と目標計画タスクをターゲットとした停止・思考・Bベンチマークで評価する。
このモデルは、Qwen3-VL-235B (58.9%) よりも59倍少ないパラメータで58.0%の精度を達成し、シーン理解とGPT-4oを上回り、GPT-5.2と一致する。
ベンチマーク以外にも、EgoThinkとTempCompassのディストリビューション性能も高く、ベンチマーク固有のトレーニングなしでは、余裕、援助、属性認識、位置推論、時間順が大幅に向上している。
提案手法は,大規模モデル拡張を必要とせず,学習データ以外の汎用化を図りながら,コンパクトモデルによる行動的かつ視覚的なガイダンスの提供を可能にすることを示唆する。
関連論文リスト
- Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models [56.851611990473174]
動的ビジュアルコンテンツに対する推論は、大きな言語モデルにとって依然として中心的な課題である。
本稿では,時間的精度と推論一貫性を両立させる強化学習手法を提案する。
結果のモデルであるVideo R2は、複数のベンチマークでTAC、VAS、精度を一貫して向上させる。
論文 参考訳(メタデータ) (2025-11-28T18:59:58Z) - TAR-TVG: Enhancing VLMs with Timestamp Anchor-Constrained Reasoning for Temporal Video Grounding [28.79516973256083]
時間的ビデオグラウンディングは、自然言語クエリに対応するビデオセグメントを正確にローカライズすることを目的としている。
テンポラルビデオグラウンド(TAR-TVG)のためのタイムスタンプアンカー制約推論を提案する。
TAR-TVGは、思考内容の明示的な監督を強制するために、推論プロセス内にタイムスタンプアンカーを導入する。
論文 参考訳(メタデータ) (2025-08-11T06:59:32Z) - Inverse Scaling in Test-Time Compute [51.16323216811257]
LRM(Large Reasoning Models)の推論長の延長は性能を低下させる。
モデルが長い理由付けをする場合には、5つの異なる障害モードを特定します。
これらの結果は、テストタイムの計算スケーリングはモデル機能の改善に引き続き期待できるが、問題のある推論パターンを必然的に補強する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-07-19T00:06:13Z) - Phi-4-reasoning Technical Report [42.508165017775]
Phi-4-reasoningは14ビリオンのパラメータ推論モデルであり、複雑な推論タスクにおいて高い性能を実現する。
我々はPhi-4-reasoning-plusを開発した。
どちらのモデルもDeepSeek-R1-Distill-Llama-70Bモデルのような大きなオープンウェイトモデルよりも優れており、完全なDeepSeek-R1モデルのパフォーマンスレベルに近づいている。
論文 参考訳(メタデータ) (2025-04-30T05:05:09Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - ReXTime: A Benchmark Suite for Reasoning-Across-Time in Videos [24.502570960589182]
ReXTimeは、ビデオイベント内で時間的推論を実行するAIモデルの能力を厳格にテストするために設計されたベンチマークである。
時間的推論と問合せのペアを生成する自動パイプラインを開発する。
私たちのパイプラインは、手作業なしで9,695個のマシン生成サンプルのトレーニングデータセットを作成しています。
論文 参考訳(メタデータ) (2024-06-27T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。