Fugu-MT 論文翻訳(概要): Bridging Episodes and Semantics: A Novel Framework for Long-Form Video Understanding

論文の概要: Bridging Episodes and Semantics: A Novel Framework for Long-Form Video Understanding

arxiv url: http://arxiv.org/abs/2408.17443v1
Date: Fri, 30 Aug 2024 17:52:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-02 14:36:36.926780
Title: Bridging Episodes and Semantics: A Novel Framework for Long-Form Video Understanding
Title（参考訳）: Bridging Episodes and Semantics: 長期ビデオ理解のための新しいフレームワーク
Authors: Gueter Josmy Faure, Jia-Fong Yeh, Min-Hung Chen, Hung-Ting Su, Winston H. Hsu, Shang-Hong Lai,
Abstract要約: 本稿ではBREASE: BRidging Episodes and SEmantics for Long-Form Video Understandingを紹介する。まず、ミクロからセミマクロまで重要な表現を効率的に集約するエピソディック・コムプレッサー(ECO)を開発した。次に,Semantics reTRiever (SeTR) を提案する。
参考スコア（独自算出の注目度）: 32.117677036812836
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While existing research often treats long-form videos as extended short videos, we propose a novel approach that more accurately reflects human cognition. This paper introduces BREASE: BRidging Episodes And SEmantics for Long-Form Video Understanding, a model that simulates episodic memory accumulation to capture action sequences and reinforces them with semantic knowledge dispersed throughout the video. Our work makes two key contributions: First, we develop an Episodic COmpressor (ECO) that efficiently aggregates crucial representations from micro to semi-macro levels. Second, we propose a Semantics reTRiever (SeTR) that enhances these aggregated representations with semantic information by focusing on the broader context, dramatically reducing feature dimensionality while preserving relevant macro-level information. Extensive experiments demonstrate that BREASE achieves state-of-the-art performance across multiple long video understanding benchmarks in both zero-shot and fully-supervised settings. The project page and code are at: https://joslefaure.github.io/assets/html/hermes.html.
Abstract（参考訳）: 従来の研究では、長編動画を長編ビデオとして扱うことが多いが、人間の認知をより正確に反映する新しいアプローチを提案する。本稿では,BREASE: BRidging Episodes and SEmantics for Long-Form Video Understandingを紹介する。まず、ミクロからセミマクロまで重要な表現を効率的に集約するエピソディック・コムプレッサー(ECO)を開発した。次に,Semantics reTRiever(セマンティックス・レトニバー)を提案する。セマンティックス・レトニバー(セマンティックス・レトニバー)は,セマンティックス・レトニバー(セマンティックス・レトニバー)とセマンティックス・レトニバー(セマンティックス・レトニバー)が関連したマクロレベルの情報を保存しながら,より広いコンテキストに焦点をあてることで,これらの集合表現を意味情報で強化する。大規模な実験により、BREASEはゼロショットとフル教師付きの両方の設定において、複数の長いビデオ理解ベンチマークで最先端のパフォーマンスを達成することが示された。プロジェクトページとコードは以下の通りである。

関連論文リスト

Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline [58.585692088008905]
MM-Lifelongはマルチモーダルライフロング理解のために設計されたデータセットである。撮影時間は181.1時間で、日、週、月の各スケールにまたがって構成され、様々な時間密度を捉えている。
論文参考訳（メタデータ） (2026-03-05T18:52:12Z)
TV-RAG: A Temporal-aware and Semantic Entropy-Weighted Framework for Long Video Retrieval and Understanding [14.570869250170139]
TV-RAGは、時間的アライメントとエントロピー誘導のセマンティクスを結合して、長時間ビデオの推論を改善する、トレーニング不要のアーキテクチャである。これらの時間的および意味的な信号を織り合わせることで、TV-RAGは、再トレーニングや微調整なしに任意のLVLMに移植できる二重レベルの推論ルーチンを実現する。
論文参考訳（メタデータ） (2025-12-29T14:10:22Z)
WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning [66.24870234484668]
我々は,複数の相補的記憶から構築・取得する,新しいマルチモーダルメモリエージェント WorldMM を紹介する。 WorldMMは5つの長いビデオ質問回答ベンチマークで既存のベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-12-02T05:14:52Z)
GCAgent: Long-Video Understanding via Schematic and Narrative Episodic Memory [59.869552603264076]
GCAgent(Global-Context-Aware Agent)は,広義の長ビデオ理解を実現する新しいフレームワークである。これは、イベントとその因果関係と時間的関係を、簡潔で組織化されたコンテキストに構造的にモデル化するものです。実験により、GCAgentは、強力なMLLMベースライン上でのVideo-MME Long分割において、最大23.5%の精度向上を実現した。
論文参考訳（メタデータ） (2025-11-15T04:29:00Z)
Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文参考訳（メタデータ） (2025-10-04T21:48:40Z)
DATE: Dynamic Absolute Time Enhancement for Long Video Understanding [8.720269393713451]
長期ビデオ理解はマルチモーダル大言語モデル(MLLM)の根本的な課題であり続けている MLLMにおける時間的意識を高める動的絶対時間拡張(DATE)を提案する。本稿では,意味的関連性と時間的関連性の両方を保証するための2段階アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-09-11T08:49:22Z)
Iterative Zoom-In: Temporal Interval Exploration for Long Video Understanding [18.027290155746112]
時間探索(Temporal Search)は、MLLMが時間領域を探索し、長いビデオの理解を反復的に改善する訓練不要のフレームワークである。モデルの生成信頼度は、時間間隔によって異なるため、予測精度と高い相関関係がある。よりきめ細かな時間間隔に注意を移し、長いビデオの理解を深めることで、モデルの焦点を洗練させる。
論文参考訳（メタデータ） (2025-06-28T15:24:05Z)
DaMO: A Data-Efficient Multimodal Orchestrator for Temporal Reasoning with Video LLMs [5.074812070492738]
本稿では,正確な時間的推論とマルチモーダル理解を目的とした,データ効率のよいビデオLLMであるDaMOを紹介する。構造化された4段階のプログレッシブトレーニングパラダイムを通じてDaMOをトレーニングし、マルチモーダルアライメント、セマンティックグラウンド、時間的推論機能を備えたモデルを段階的に装備する。我々の研究は、データ効率の良いビデオ言語モデリングのための有望な方向性を確立する。
論文参考訳（メタデータ） (2025-06-13T08:13:05Z)
VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。新しい仮面融合はSAM2を双方向の点伝播に用いている。 The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文参考訳（メタデータ） (2025-06-05T17:59:29Z)
Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文参考訳（メタデータ） (2025-06-02T17:28:26Z)
When the Future Becomes the Past: Taming Temporal Correspondence for Self-supervised Video Representation Learning [80.09819072780193]
ビデオ表現学習における時間対応を利用した自己教師型フレームワーク(T-CoRe)を提案する。 T-CoReの実験は、複数の下流タスクに対して一貫して優れた性能を示し、ビデオ表現学習の有効性を実証している。
論文参考訳（メタデータ） (2025-03-19T10:50:03Z)
TIME: Temporal-sensitive Multi-dimensional Instruction Tuning and Benchmarking for Video-LLMs [55.23558461306722]
ビデオ大言語モデルは、ビデオ質問応答のようなタスクにおいて顕著なパフォーマンスを達成した。我々のデータセットは5つの重要な次元にわたる時間的理解の向上に焦点を当てている。本稿では,時間に敏感なタスクを既存の命令データセットにシームレスに統合するマルチタスクプロンプト微調整手法を提案する。
論文参考訳（メタデータ） (2025-03-13T03:05:11Z)
Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
Position: Episodic Memory is the Missing Piece for Long-Term LLM Agents [43.94686139164999]
本稿では,多言語モデル(LLM)エージェントのためのエピソディックメモリフレームワークを提案する。このポジションペーパーは、長期的なエージェントの開発を促進するために、明らかに統合されたエピソード記憶に焦点を合わせるのが正しい時だと論じている。
論文参考訳（メタデータ） (2025-02-10T19:14:51Z)
Temporal Working Memory: Query-Guided Segment Refinement for Enhanced Multimodal Understanding [28.635761403266496]
MFMの時間的モデリング能力を高めることを目的とした、特別な認知モジュールである時間的ワーキングメモリ(TWM)を導入する。 TWMは時間次元にまたがるタスク関連情報を選択的に保持し、ビデオおよびオーディオコンテンツの処理を通して重要な詳細が保存されることを保証する。我々のTWMでは、9つの最先端モデルが、ビデオキャプション、質問応答、ビデオテキスト検索といったタスクにおいて、大幅なパフォーマンス向上を示している。
論文参考訳（メタデータ） (2025-02-09T20:26:30Z)
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文参考訳（メタデータ） (2024-12-12T18:58:30Z)
SEAL: Semantic Attention Learning for Long Video Representation [31.994155533019843]
本稿では,長編ビデオの新たな統一表現であるセマンティック・アテンション・ラーニング(SEAL)を紹介する。計算複雑性を低減するために、長いビデオは3つの異なるタイプのセマンティックエンティティに分解される。我々の表現は多用途であり、様々な長いビデオ理解タスクに応用できる。
論文参考訳（メタデータ） (2024-12-02T18:46:12Z)
Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文参考訳（メタデータ） (2024-06-16T12:58:31Z)
MeMSVD: Long-Range Temporal Structure Capturing Using Incremental SVD [27.472705540825316]
本論文は、長時間の時間窓上での人間の行動を認識すること(最大数分)を目標とする長期映像理解について述べる。本稿では,Singular Value Decomposition を用いて取得したメモリの低ランク近似に基づくアテンションベースのスキームの代替を提案する。提案手法には2つの利点がある: (a) 複雑度を1桁以上削減し, (b) メモリベース計算の効率的な実装が可能である。
論文参考訳（メタデータ） (2024-06-11T12:03:57Z)
SpikeMba: Multi-Modal Spiking Saliency Mamba for Temporal Video Grounding [50.337896542603524]
時間的ビデオグラウンドティングのためのマルチモーダル・スパイク・サリエンシ・マンバであるSpikeMbaを紹介した。我々のアプローチでは、スパイキングニューラルネットワーク(SNN)と状態空間モデル(SSM)を統合して、そのユニークな利点を活用する。我々の実験は、最先端の手法を一貫して上回るSpikeMbaの有効性を実証した。
論文参考訳（メタデータ） (2024-04-01T15:26:44Z)
Temporal Insight Enhancement: Mitigating Temporal Hallucination in Multimodal Large Language Models [20.33971942003996]
本研究では,MLLMにおける事象レベルの幻覚に対処する革新的な手法を提案する。オンデマンドイベントクエリをアイコンアクションに分解するユニークなメカニズムを提案する。イベント発生の特定のタイムスタンプを予測するために、CLIPやBLIP2といったモデルを採用しています。
論文参考訳（メタデータ） (2024-01-18T10:18:48Z)
Video-based Person Re-identification with Long Short-Term Representation Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-07T16:22:47Z)
Deeply-Coupled Convolution-Transformer with Spatial-temporal Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文参考訳（メタデータ） (2023-04-27T12:16:44Z)
A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented, Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文参考訳（メタデータ） (2023-03-08T01:29:55Z)
Hierarchical Deep Residual Reasoning for Temporal Moment Localization [48.108468456043994]
ビデオと文を異なる意味を持つマルチレベル表現に分解する階層的深層残響推論(HDRR)モデルを提案する。また,機能融合のための簡易かつ効果的なRes-BiGRUを設計し,自己適応的に有用な情報を把握できる。
論文参考訳（メタデータ） (2021-10-31T07:13:34Z)
Interpretable Time-series Representation Learning With Multi-Level Disentanglement [56.38489708031278]
Disentangle Time Series (DTS)は、シーケンシャルデータのための新しいDisentanglement Enhanceingフレームワークである。 DTSは時系列の解釈可能な表現として階層的意味概念を生成する。 DTSは、セマンティック概念の解釈性が高く、下流アプリケーションで優れたパフォーマンスを実現します。
論文参考訳（メタデータ） (2021-05-17T22:02:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。