Fugu-MT 論文翻訳(概要): StreamReady: Learning What to Answer and When in Long Streaming Videos

論文の概要: StreamReady: Learning What to Answer and When in Long Streaming Videos

arxiv url: http://arxiv.org/abs/2603.08620v1
Date: Mon, 09 Mar 2026 17:02:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:16.592377
Title: StreamReady: Learning What to Answer and When in Long Streaming Videos
Title（参考訳）: StreamReady:ロングストリーミングビデオで何に答えるか、いつ聞くかを学ぶ
Authors: Shehreen Azad, Vibhav Vineet, Yogesh Singh Rawat,
Abstract要約: 我々は、Answer Readiness Score (ARS) を用いたストリーミングビデオ理解の可読性を考慮した定式化を導入する。 ARSは、モデルが正しいかどうかではなく、適切なタイミングで答えられるかどうかを測定する効果的な精度を定義します。この定式化に基づいて、リアルタイム応答と時間的推論を統一するフレームワークStreamReadyを導入します。
参考スコア（独自算出の注目度）: 28.99829321053373
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Streaming video understanding often involves time-sensitive scenarios where models need to answer exactly when the supporting visual evidence appears: answering before the evidence reflects speculation, answering after it has passed reduces real-time utility. To capture this behavior, we introduce a readiness-aware formulation of streaming video understanding with the Answer Readiness Score (ARS), a timing-aware objective with asymmetric early and late penalties. When combined with correctness, ARS defines an effective accuracy that measures not just whether a model is right, but whether it answers at the appropriate moment. Building on this formulation, we introduce StreamReady, a framework to unify temporal reasoning with on-time answering through a lightweight readiness mechanism that decides if sufficient evidence has been observed before responding. To evaluate this capability, we further introduce ProReady-QA, a benchmark with annotated answer evidence windows and proactive multi-turn questions across local and global contexts. StreamReady achieves superior performance on ProReady-QA, and consistently outperforms prior methods across eight additional streaming and offline long-video benchmarks, demonstrating robust and broadly generalizable video understanding capability.
Abstract（参考訳）: ビデオ理解のストリーミングには、モデルが支援された視覚的エビデンスが現れたときに正確に答える必要がある、時間に敏感なシナリオが伴う。この振る舞いを捉えるために,非対称な初期および後期の罰則を持つタイミング認識対象であるAnswer Readiness Score (ARS)を用いて,ストリーミング映像理解の可読性を考慮した定式化を導入する。正確さと組み合わせると、ARSはモデルが正しいかどうかではなく、適切なタイミングで答えられるかどうかを測定する効果的な精度を定義する。この定式化に基づいてStreamReadyを紹介した。これは、応答前に十分な証拠が観測されたかどうかを判断する軽量な準備機構を通じて、オンタイム応答と時間的推論を統一するフレームワークである。この能力を評価するために,アノテーション付き回答エビデンスウィンドウを用いたベンチマークProReady-QAを導入する。 StreamReadyはProReady-QA上での優れたパフォーマンスを実現し、8つのストリーミングとオフラインのロングビデオベンチマークで先行メソッドを一貫して上回り、堅牢で広範に一般化可能なビデオ理解能力を実証している。

関連論文リスト

Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding [25.82963105515627]
VideoHV-Agentは、構造化仮説検証プロセスとしてビデオ質問応答を再構成するフレームワークである。ビデオHV-Agentは,解釈性の向上,論理的音質の向上,計算コストの低減を実現し,最先端の精度を実現する。
論文参考訳（メタデータ） (2026-03-05T09:16:07Z)
Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding [139.83981719664794]
LVU(Long Video Understanding)は、現実のクエリに答えることが、数時間の計算時間内に埋められた、時間的に分散されたキューと無関係なコンテンツに依存するため、難しい。我々は,映像をインタラクティブな環境として扱うエビデンス検索フレームワークであるActive Video Perception(AVP)を,画素から直接クエリ関連エビデンスを取得する。
論文参考訳（メタデータ） (2025-12-05T15:03:48Z)
StreamEQA: Towards Streaming Video Understanding for Embodied Scenarios [33.70462645363648]
StreamEQAは、エンボディされたシナリオにおけるビデオ質問応答の最初のベンチマークである。 156個の独立した長編ビデオの上に構築され、正確なタイムスタンプで約21Kの質問応答ペアを生成する。 StreamEQAは、エンボディされたアプリケーションのためのストリーミングビデオ理解の研究を触媒することを期待しています。
論文参考訳（メタデータ） (2025-12-04T04:48:16Z)
StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos [128.45606644157]
StreamGazeは、MLLMがストリーミングビデオにおける時間的および前向きな推論において、いかに効果的に視線を使用するかを評価する最初のベンチマークである。我々は、エゴセントリックなビデオと生の視線軌跡を整列する視線ビデオQA生成パイプラインを開発した。我々は、最先端のMLLMと人的パフォーマンスの相違をかなり観察する。
論文参考訳（メタデータ） (2025-12-01T14:15:44Z)
LeAdQA: LLM-Driven Context-Aware Temporal Grounding for Video Question Answering [10.060267989615813]
本稿では,これらのギャップを埋める斬新な手法であるLeAdQAを紹介する。 NExT-QA, IntentQA, NExT-GQAに関する実験により, 本手法の正確な視覚的基盤化は, 映像検索関係の理解を著しく向上させることを示した。
論文参考訳（メタデータ） (2025-07-20T01:57:00Z)
Locate before Answering: Answer Guided Question Localization for Video Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-10-05T08:19:16Z)
NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文参考訳（メタデータ） (2021-05-18T04:56:46Z)
Towards Streaming Perception [70.68520310095155]
本稿では、リアルタイムオンライン知覚のための単一のメトリクスにレイテンシと精度を協調的に統合するアプローチを提案する。この指標の背後にある重要な洞察は、瞬間ごとに認識スタック全体の出力を共同で評価することである。本稿では,都市ビデオストリームにおけるオブジェクト検出とインスタンスセグメンテーションの具体的タスクに注目し,高品質で時間依存的なアノテーションを備えた新しいデータセットを寄贈する。
論文参考訳（メタデータ） (2020-05-21T01:51:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。