論文の概要: LET-US: Long Event-Text Understanding of Scenes
- arxiv url: http://arxiv.org/abs/2508.07401v1
- Date: Sun, 10 Aug 2025 16:02:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.843756
- Title: LET-US: Long Event-Text Understanding of Scenes
- Title(参考訳): LET-US:Long Event-Text Understanding of Scenes
- Authors: Rui Chen, Xingyu Chen, Shaoan Wang, Shihan Kong, Junzhi Yu,
- Abstract要約: イベントカメラは、マイクロ秒レベルの時間分解能を備えたスパースで非同期なデータとしてイベントストリームを出力する。
長いイベントストリーム・テキスト理解のためのフレームワークであるLET-USを紹介する。
適応圧縮機構を用いて、重要な視覚的詳細を保存しながら入力イベントの量を削減する。
- 参考スコア(独自算出の注目度): 23.376693904132786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event cameras output event streams as sparse, asynchronous data with microsecond-level temporal resolution, enabling visual perception with low latency and a high dynamic range. While existing Multimodal Large Language Models (MLLMs) have achieved significant success in understanding and analyzing RGB video content, they either fail to interpret event streams effectively or remain constrained to very short sequences. In this paper, we introduce LET-US, a framework for long event-stream--text comprehension that employs an adaptive compression mechanism to reduce the volume of input events while preserving critical visual details. LET-US thus establishes a new frontier in cross-modal inferential understanding over extended event sequences. To bridge the substantial modality gap between event streams and textual representations, we adopt a two-stage optimization paradigm that progressively equips our model with the capacity to interpret event-based scenes. To handle the voluminous temporal information inherent in long event streams, we leverage text-guided cross-modal queries for feature reduction, augmented by hierarchical clustering and similarity computation to distill the most representative event features. Moreover, we curate and construct a large-scale event-text aligned dataset to train our model, achieving tighter alignment of event features within the LLM embedding space. We also develop a comprehensive benchmark covering a diverse set of tasks -- reasoning, captioning, classification, temporal localization and moment retrieval. Experimental results demonstrate that LET-US outperforms prior state-of-the-art MLLMs in both descriptive accuracy and semantic comprehension on long-duration event streams. All datasets, codes, and models will be publicly available.
- Abstract(参考訳): イベントカメラは、マイクロ秒レベルの時間分解能を持つ非同期データとしてスパースとしてイベントストリームを出力する。
既存のMLLM(Multimodal Large Language Models)は、RGBビデオコンテンツの理解と分析において大きな成功を収めているが、イベントストリームを効果的に解釈できなかったり、非常に短いシーケンスに制約されたままであったりする。
本稿では,重要な視覚的詳細を保存しつつ,入力イベントの容積を減少させる適応圧縮機構を用いて,長いイベントストリーム・テキスト理解のためのフレームワークであるLET-USを紹介する。
LET-USは、拡張イベントシーケンスに対するクロスモーダル推論理解において、新たなフロンティアを確立する。
イベントストリームとテキスト表現の実質的なモダリティギャップを埋めるために、私たちは、イベントベースのシーンを解釈する能力を備えたモデルを段階的に装備する2段階最適化パラダイムを採用しています。
長大なイベントストリームに固有の時間的情報を扱うために,テキスト誘導型クロスモーダルクエリを特徴量削減に利用し,階層的クラスタリングと類似性計算で拡張し,最も代表的なイベント特徴を抽出する。
さらに,LLM埋め込み空間内のイベント機能のより緊密なアライメントを実現するために,大規模イベントテキストアライメントデータセットをキュレートし,構築する。
また、推論、キャプション、分類、時間的局所化、モーメント検索といった様々なタスクを網羅した総合的なベンチマークも開発した。
実験の結果,LET-USは長期イベントストリームにおける記述精度と意味理解の両方において,最先端MLLMよりも優れていた。
すべてのデータセット、コード、モデルが公開される。
関連論文リスト
- EventVL: Understand Event Streams via Multimodal Large Language Model [18.57504605615107]
明示的意味理解のためのイベントベースMLLMフレームワークであるEventVLを提案する。
具体的には、異なるモダリティセマンティクスを接続するためにデータギャップをブリッジするために、まず大きなイベントイメージ/ビデオテキストデータセットに注釈を付ける。
よりコンパクトなセマンティック空間を促進するために、イベントのスパースなセマンティック空間を改善するために動的セマンティックアライメントが導入される。
論文 参考訳(メタデータ) (2025-01-23T14:37:21Z) - EventGPT: Event Stream Understanding with Multimodal Large Language Models [59.65010502000344]
イベントカメラは、視覚情報を非同期なピクセル変更ストリームとして記録し、不満足な照明や高ダイナミックな条件下でのシーン認識に優れる。
既存のマルチモーダル大言語モデル(MLLM)は、自然のRGBイメージに集中しており、イベントデータがより適合するシナリオでは失敗する。
イベントストリーム理解のための最初のMLLMであるEventGPTを紹介する。
論文 参考訳(メタデータ) (2024-12-01T14:38:40Z) - Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Generating Event-oriented Attribution for Movies via Two-Stage Prefix-Enhanced Multimodal LLM [47.786978666537436]
本稿では,2段階の事前修正強化MLLM (TSPE) アプローチを提案する。
局所的な段階では、1つのクリップ内の関連するマルチモーダル情報にフォーカスするようモデルに誘導する対話対応プレフィックスを導入する。
グローバルな段階では、推論知識グラフを用いて関連するイベント間の接続を強化する。
論文 参考訳(メタデータ) (2024-09-14T08:30:59Z) - Analyzing Temporal Complex Events with Large Language Models? A Benchmark towards Temporal, Long Context Understanding [57.62275091656578]
時間的複合イベント(TCE)として、長い期間にわたって多くのニュース記事から構成される複合イベントについて述べる。
本稿では,Large Language Models (LLMs) を用いて,TCE内のイベントチェーンを系統的に抽出し,解析する手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T16:42:17Z) - Event Voxel Set Transformer for Spatiotemporal Representation Learning on Event Streams [19.957857885844838]
イベントカメラは、シーンをスパースで非同期なイベントストリームとして記録するニューロモルフィックな視覚センサである。
本稿では,イベントストリーム上での効率的な表現学習のためのイベントVoxel Set Transformer (EVSTr) という注目度モデルを提案する。
実験によると、EVSTrは低モデルの複雑さを維持しながら最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-07T12:48:02Z) - CLIP-Event: Connecting Text and Images with Event Structures [123.31452120399827]
視覚言語事前学習モデルを適用したコントラスト学習フレームワークを提案する。
我々は、イベント構造知識を得るために、テキスト情報抽出技術を利用する。
実験により、ゼロショットCLIP-Eventは引数抽出において最先端の教師付きモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-01-13T17:03:57Z) - Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning [63.91369308085091]
本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T13:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。