Fugu-MT 論文翻訳(概要): AHA - Predicting What Matters Next: Online Highlight Detection Without Looking Ahead

論文の概要: AHA - Predicting What Matters Next: Online Highlight Detection Without Looking Ahead

arxiv url: http://arxiv.org/abs/2509.16421v2
Date: Tue, 23 Sep 2025 00:52:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-24 11:50:03.913305
Title: AHA - Predicting What Matters Next: Online Highlight Detection Without Looking Ahead
Title（参考訳）: AHA - 次に何が重要かを予測する - 目の前で見ずにオンラインのハイライト検出
Authors: Aiden Chang, Celso De Melo, Stephanie M. Lukin,
Abstract要約: Ahaは、自然言語で記述されたタスクに対する各ビデオフレームの関連性を予測する自動回帰ハイライト検出フレームワークである。 Ahaはハイライト検出ベンチマークで最先端(SOTA)のパフォーマンスを達成する。我々は、タスク指向の自然言語入力と連続ロボット中心のビデオが与えられた現実世界のロボティクスアプリケーションに対するAhaの可能性を探求する。
参考スコア（独自算出の注目度）: 4.55107996328448
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Real-time understanding of continuous video streams is essential for intelligent agents operating in high-stakes environments, including autonomous vehicles, surveillance drones, and disaster response robots. Yet, most existing video understanding and highlight detection methods assume access to the entire video during inference, making them unsuitable for online or streaming scenarios. In particular, current models optimize for offline summarization, failing to support step-by-step reasoning needed for real-time decision-making. We introduce Aha, an autoregressive highlight detection framework that predicts the relevance of each video frame against a task described in natural language. Without accessing future video frames, Aha utilizes a multimodal vision-language model and lightweight, decoupled heads trained on a large, curated dataset of human-centric video labels. To enable scalability, we introduce the Dynamic SinkCache mechanism that achieves constant memory usage across infinite-length streams without degrading performance on standard benchmarks. This encourages the hidden representation to capture high-level task objectives, enabling effective frame-level rankings for informativeness, relevance, and uncertainty with respect to the natural language task. Aha achieves state-of-the-art (SOTA) performance on highlight detection benchmarks, surpassing even prior offline, full-context approaches and video-language models by +5.9% on TVSum and +8.3% on Mr. Hisum in mAP (mean Average Precision). We explore Aha's potential for real-world robotics applications given a task-oriented natural language input and a continuous, robot-centric video. Both experiments demonstrate Aha's potential effectiveness as a real-time reasoning module for downstream planning and long-horizon understanding.
Abstract（参考訳）: 自動運転車、監視ドローン、災害対応ロボットなど、高度な環境で動作するインテリジェントなエージェントにとって、継続的ビデオストリームのリアルタイム理解は不可欠である。しかし、既存のビデオ理解とハイライト検出手法のほとんどは、推論中にビデオ全体へのアクセスを前提としており、オンラインやストリーミングのシナリオには適さない。特に、現在のモデルはオフラインの要約のために最適化されており、リアルタイムの意思決定に必要なステップバイステップの推論をサポートしない。本稿では、自然言語で記述されたタスクに対する各ビデオフレームの関連性を予測する自動回帰ハイライト検出フレームワークであるAhaを紹介する。将来のビデオフレームにアクセスすることなく、Ahaはマルチモーダルなビジョン言語モデルと、人間中心のビデオラベルの大規模でキュレートされたデータセットでトレーニングされた軽量で分離されたヘッドを使用する。スケーラビリティを実現するために,標準ベンチマークのパフォーマンスを劣化させることなく,無限長ストリーム間のメモリ使用量の一定化を実現するDynamic SinkCache機構を導入する。これにより、隠れた表現がハイレベルなタスクの目的を捉え、自然言語タスクに関する効果的なフレームレベルのランク付けを可能にします。 Ahaは、ハイライト検出ベンチマークで最先端(SOTA)のパフォーマンスを達成し、TVSumでは+5.9%、mAPではMr. Hisum(平均精度)では+8.3%、オフライン、フルコンテキスト、ビデオ言語モデルでも+5.9%を超えた。我々は、タスク指向の自然言語入力と連続ロボット中心のビデオが与えられた現実世界のロボティクスアプリケーションに対するAhaの可能性を探求する。どちらの実験も、下流計画と長距離理解のためのリアルタイム推論モジュールとしてのAhaの有効性を実証している。

関連論文リスト

ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts [56.75723197779384]
ARC-Hunyuan-Videoは、構造化理解のために視覚、音声、テキストの信号をエンドツーエンドに処理するマルチモーダルモデルである。本モデルでは,複数粒度のタイムスタンプ付きビデオキャプションと要約,オープンなビデオ質問応答,時間的ビデオグラウンド,ビデオ推論が可能である。
論文参考訳（メタデータ） (2025-07-28T15:52:36Z)
VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。新しい仮面融合はSAM2を双方向の点伝播に用いている。 The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文参考訳（メタデータ） (2025-06-05T17:59:29Z)
COMODO: Cross-Modal Video-to-IMU Distillation for Efficient Egocentric Human Activity Recognition [3.271109623410664]
ビデオモダリティからIMUモダリティへのリッチな意味的知識をラベル付きアノテーションを必要とせずに伝達するクロスモーダルな自己教師型蒸留フレームワークであるCOMODOを提案する。我々のアプローチは、IMUエンコーダが実世界のアプリケーションのためにその効率を保ちながら、ビデオからリッチなセマンティック情報を継承することを可能にする。
論文参考訳（メタデータ） (2025-03-10T12:43:51Z)
HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。 HumanVBenchは、内的感情と外的表現、静的、動的、基本的、複雑にまたがる2つの主要な側面と、単一モーダルとクロスモーダルという2つの側面を慎重に検討する16のタスクで構成されている。 22のSOTAビデオMLLMの総合評価では、特にクロスモーダルおよび感情知覚において、現在のパフォーマンスに顕著な制限が示される。
論文参考訳（メタデータ） (2024-12-23T13:45:56Z)
Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文参考訳（メタデータ） (2024-10-12T06:22:23Z)
Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文参考訳（メタデータ） (2024-06-03T07:58:40Z)
HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model [9.762722976833581]
現在のモデルは、ビデオと言語間のインスタンスレベルのアライメントに大きく依存している。我々は、人間の知覚からインスピレーションを得て、エゴビデオ表現のための構成的アプローチを探求する。
論文参考訳（メタデータ） (2024-06-01T05:41:12Z)
How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。 CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-05-06T17:59:45Z)
Look, Remember and Reason: Grounded reasoning in videos with language models [5.3445140425713245]
マルチテンポラル言語モデル(LM)は、最近ビデオ上の高レベル推論タスクにおいて有望な性能を示した。オブジェクト検出,再識別,追跡など,低レベルなサロゲートタスクに対するLMエンドツーエンドのトレーニングを提案し,低レベルな視覚能力を備えたモデルを実現する。我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2023-06-30T16:31:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。