論文の概要: HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering
- arxiv url: http://arxiv.org/abs/2603.18558v1
- Date: Thu, 19 Mar 2026 07:11:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.997631
- Title: HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering
- Title(参考訳): HiMu:長時間ビデオ質問応答のための階層型マルチモーダルフレーム選択
- Authors: Dan Ben-Ami, Gabriele Serussi, Kobi Cohen, Chaim Baskin,
- Abstract要約: 長文のビデオ質問応答には、時間的コンテキストの拡張に対する推論が必要である。
類似性ベースのセレクタは高速だが、合成クエリを1つの高密度ベクトルに分解する。
このギャップを埋めるトレーニング不要のフレームワークであるHiMuを紹介します。
- 参考スコア(独自算出の注目度): 13.370338205427911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-form video question answering requires reasoning over extended temporal contexts, making frame selection critical for large vision-language models (LVLMs) bound by finite context windows. Existing methods face a sharp trade-off: similarity-based selectors are fast but collapse compositional queries into a single dense vector, losing sub-event ordering and cross-modal bindings; agent-based methods recover this structure through iterative LVLM inference, but at prohibitive cost. We introduce HiMu, a training-free framework that bridges this gap. A single text-only LLM call decomposes the query into a hierarchical logic tree whose leaves are atomic predicates, each routed to a lightweight expert spanning vision (CLIP, open-vocabulary detection, OCR) and audio (ASR, CLAP). The resulting signals are normalized, temporally smoothed to align different modalities, and composed bottom-up through fuzzy-logic operators that enforce temporal sequencing and adjacency, producing a continuous satisfaction curve. Evaluations on Video-MME, LongVideoBench and HERBench-Lite show that HiMu advances the efficiency-accuracy Pareto front: at 16 frames with Qwen3-VL 8B it outperforms all competing selectors, and with GPT-4o it surpasses agentic systems operating at 32-512 frames while requiring roughly 10x fewer FLOPs.
- Abstract(参考訳): 長文ビデオ質問応答では、時間的コンテキストの延長に対する推論が必要であり、フレーム選択は、有限コンテキストウィンドウで拘束された大きな視覚言語モデル(LVLM)にとって重要となる。
類似性ベースのセレクタは高速だが合成クエリを1つの高密度ベクトルに分解し、サブイベント順序やクロスモーダル結合を失う。
このギャップを埋めるトレーニング不要のフレームワークであるHiMuを紹介します。
単一のテキストのみのLLMコールは、クエリを、葉がアトミックな述語である階層論理木に分解し、それぞれが軽量の専門家であるCLIP(open-vocabulary detection, OCR)とオーディオ(ASR, CLAP)にルーティングする。
得られた信号は正規化され、異なるモーダルを整列するために時間的に滑らかにされ、時間的シークエンシングと隣接を強制するファジィ論理演算子を通してボトムアップを構成し、継続的な満足度曲線を生成する。
Video-MME、LongVideoBench、HERBench-Liteの評価によると、HiMuは効率精度のParetoフロントを推し進めており、Qwen3-VL 8Bの16フレームでは競合する全てのセレクタを上回り、GPT-4oでは32-512フレームで動作するエージェントシステムを上回り、FLOPを約10倍少なくしている。
関連論文リスト
- Event-Anchored Frame Selection for Effective Long-Video Understanding [67.56884568828508]
Event-Anchored Frame Selection (EFS)は階層的なイベント認識パイプラインである。
トレーニング不要のプラグイン・アンド・プレイモジュールとして、EFSは既製のLVLMにシームレスに統合できる。
論文 参考訳(メタデータ) (2026-03-01T08:25:37Z) - Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation [50.22481337087162]
Referring Video Object (RVOS) は、テキストクエリに基づくビデオ内のオブジェクトのセグメンテーションを目的としている。
Refer-Agent (Refer-Agent) は、共用多エージェントシステムである。
論文 参考訳(メタデータ) (2026-02-03T14:48:12Z) - TV-RAG: A Temporal-aware and Semantic Entropy-Weighted Framework for Long Video Retrieval and Understanding [14.570869250170139]
TV-RAGは、時間的アライメントとエントロピー誘導のセマンティクスを結合して、長時間ビデオの推論を改善する、トレーニング不要のアーキテクチャである。
これらの時間的および意味的な信号を織り合わせることで、TV-RAGは、再トレーニングや微調整なしに任意のLVLMに移植できる二重レベルの推論ルーチンを実現する。
論文 参考訳(メタデータ) (2025-12-29T14:10:22Z) - Less is More: Token-Efficient Video-QA via Adaptive Frame-Pruning and Semantic Graph Integration [24.337139909108117]
過剰なフレームが文脈の希釈によってパラドックス的に性能を低下させる「レスはそれ以上」現象である。
視覚エコー」は「視覚エコー」という時間的冗長性を有する
AFP"は、ResNet-50とCLIPの機能空間に適応的な階層的クラスタリングアルゴリズムを用いて、これらのエコーを単一の代表に識別し、マージする。
我々の完全なアプローチは、必要なフレームを86.9%まで、合計入力トークンを83.2%まで劇的に削減することを示しています。
論文 参考訳(メタデータ) (2025-08-05T11:31:55Z) - ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding [52.050036778325094]
ReFoCUS(Reinforcement-guided Frame Optimization for Contextual UnderStanding)は、新しいフレームレベルのポリシー最適化フレームワークである。
ReFoCUSは、参照LMMから派生した報酬信号を用いて、フレームに対するモデル固有の嗜好を反映して、強化学習を通じてフレーム選択ポリシーを学習する。
提案手法は複数のビデオQAベンチマークにおける推論性能を継続的に改善する。
論文 参考訳(メタデータ) (2025-06-02T03:08:07Z) - Threading Keyframe with Narratives: MLLMs as Strong Long Video Comprehenders [62.58375366359421]
長いビデオ理解のためのマルチモーダル大言語モデル(MLLM)は依然として難しい問題である。
伝統的な一様サンプリングは、無関係な内容の選択につながる。
数千フレームの訓練後のMLLMは、かなりの計算負担を課す。
本研究では,物語付きスレッディング(Nar-KFC)を提案する。
論文 参考訳(メタデータ) (2025-05-30T03:04:28Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。