論文の概要: Talk2Event: Grounded Understanding of Dynamic Scenes from Event Cameras
- arxiv url: http://arxiv.org/abs/2507.17664v1
- Date: Wed, 23 Jul 2025 16:29:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:15.084846
- Title: Talk2Event: Grounded Understanding of Dynamic Scenes from Event Cameras
- Title(参考訳): Talk2Event: イベントカメラによる動的シーンの理解
- Authors: Lingdong Kong, Dongyue Lu, Ao Liang, Rong Li, Yuhao Dong, Tianshuai Hu, Lai Xing Ng, Wei Tsang Ooi, Benoit R. Cottereau,
- Abstract要約: Talk2Eventは、イベントベースの知覚において、言語駆動のオブジェクトグラウンドのための最初の大規模ベンチマークである。
我々は3万以上の検証された参照表現を提供し、それぞれに4つの基底属性を富ませる。
マルチ属性表現を動的に融合する属性認識基盤フレームワークであるEventReferを提案する。
- 参考スコア(独自算出の注目度): 6.174442475414146
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Event cameras offer microsecond-level latency and robustness to motion blur, making them ideal for understanding dynamic environments. Yet, connecting these asynchronous streams to human language remains an open challenge. We introduce Talk2Event, the first large-scale benchmark for language-driven object grounding in event-based perception. Built from real-world driving data, we provide over 30,000 validated referring expressions, each enriched with four grounding attributes -- appearance, status, relation to viewer, and relation to other objects -- bridging spatial, temporal, and relational reasoning. To fully exploit these cues, we propose EventRefer, an attribute-aware grounding framework that dynamically fuses multi-attribute representations through a Mixture of Event-Attribute Experts (MoEE). Our method adapts to different modalities and scene dynamics, achieving consistent gains over state-of-the-art baselines in event-only, frame-only, and event-frame fusion settings. We hope our dataset and approach will establish a foundation for advancing multimodal, temporally-aware, and language-driven perception in real-world robotics and autonomy.
- Abstract(参考訳): イベントカメラはマイクロ秒レベルのレイテンシと動きのぼかしに対する堅牢性を提供し、動的環境を理解するのに最適である。
しかし、これらの非同期ストリームをヒューマン言語に接続することは、依然としてオープンな課題である。
Talk2Eventは、イベントベースの知覚において、言語駆動のオブジェクトグラウンドのための最初の大規模ベンチマークである。
実世界の運転データから構築された,3万以上の検証済み参照表現 – 外観,ステータス,ビューアとの関係,その他のオブジェクトとの関係 – を具体化して,空間的,時間的,リレーショナルな推論を行う。
これらのキューを完全に活用するために、属性対応の基盤フレームワークであるEventReferを提案し、イベント属性エキスパートのミックス(MoEE)を通して、動的にマルチ属性表現を融合する。
提案手法は, イベントのみ, フレームのみ, イベントフレームの融合設定において, 最先端のベースラインに対して一貫した利得を達成し, 異なるモーダル性やシーンダイナミクスに適応する。
われわれのデータセットとアプローチは、現実世界のロボティクスと自律性において、マルチモーダル、時間的認識、言語による知覚を促進する基盤を確立することを願っている。
関連論文リスト
- Event-Driven Storytelling with Multiple Lifelike Humans in a 3D Scene [13.70771642812974]
我々は,複数の人間の文脈運動を生かした,生き生きとした仮想的な動的シーンを生成するフレームワークを提案する。
我々は,大言語モデル(LLM)のパワーを適応させ,テキスト入力における文脈的複雑さを解消する。
スケーラブルで包括的なコンテキストを提供するために、ハイレベルなモジュールを採用しています。
論文 参考訳(メタデータ) (2025-07-25T12:57:05Z) - Grounded Gesture Generation: Language, Motion, and Space [3.4973270688542626]
グラウンドドジェスチャ生成のためのマルチモーダルデータセットとフレームワークを提案する。
我々はHumanML3Dフォーマットで標準化された7.7時間以上の同期動作、音声、および3Dシーン情報を提供する。
我々の貢献は、位置決めジェスチャ生成と接地されたマルチモーダル相互作用の研究を促進する基盤を確立する。
論文 参考訳(メタデータ) (2025-07-06T20:19:34Z) - Affogato: Learning Open-Vocabulary Affordance Grounding with Automated Data Generation at Scale [41.693908591580175]
我々は、事前学習された部分認識型ビジョンバックボーンとテキスト条件のヒートマップデコーダを利用するビジョン言語モデルを開発した。
我々のモデルは既存の2Dおよび3Dベンチマークにおいて有望な性能を達成し、特にオープン語彙のクロスドメイン一般化において有効であることを示す。
論文 参考訳(メタデータ) (2025-06-13T17:57:18Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。
I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。
提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文 参考訳(メタデータ) (2025-01-06T14:49:26Z) - Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - LaSe-E2V: Towards Language-guided Semantic-Aware Event-to-Video Reconstruction [8.163356555241322]
セマンティック・アウェアの高品質なE2V再構成を実現する新しいフレームワークであるLaSe-E2Vを提案する。
まずイベント誘導時空間アテンション(ESA)モジュールを提案する。
次に、時間的コヒーレンスを確保するためのイベント対応マスクロスと、空間的一貫性を高めるためのノイズ戦略を導入する。
論文 参考訳(メタデータ) (2024-07-08T01:40:32Z) - Double Mixture: Towards Continual Event Detection from Speech [60.33088725100812]
音声イベント検出は、セマンティックイベントと音響イベントの両方のタグ付けを含むマルチメディア検索に不可欠である。
本稿では, 音声イベント検出における主な課題として, 過去の出来事を忘れることなく新たな事象を連続的に統合すること, 音響イベントからの意味のゆがみについて述べる。
本稿では,適応性を向上し,忘れることを防止するために,音声の専門知識と堅牢な記憶機構を融合する新しい手法「ダブルミキチャー」を提案する。
論文 参考訳(メタデータ) (2024-04-20T06:32:00Z) - Towards Event Extraction from Speech with Contextual Clues [61.164413398231254]
本稿では,音声イベント抽出(SpeechEE)タスクを導入し,3つの合成トレーニングセットと1つの人為的テストセットを構築した。
テキストからのイベント抽出と比較して、SpeechEEは、主に連続的で単語境界を持たない複雑な音声信号のために、より大きな課題を提起する。
我々の手法はすべてのデータセットに大幅な改善をもたらし、最大10.7%のF1ゲインを達成する。
論文 参考訳(メタデータ) (2024-01-27T11:07:19Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - DynaVol: Unsupervised Learning for Dynamic Scenes through Object-Centric
Voxelization [67.85434518679382]
幾何学構造と物体中心学習を統一した3次元シーン生成モデルDynaVolを提案する。
鍵となるアイデアは、シーンの3D特性を捉えるために、オブジェクト中心のボキセル化を実行することである。
ボクセルの機能は標準空間の変形関数を通じて時間とともに進化し、グローバルな表現学習の基礎を形成する。
論文 参考訳(メタデータ) (2023-04-30T05:29:28Z) - Beyond Grounding: Extracting Fine-Grained Event Hierarchies Across
Modalities [43.048896440009784]
マルチモーダル(ビデオとテキスト)データからイベント階層を抽出するタスクを提案する。
これはイベントの構造を明らかにし、それらを理解するのに不可欠である。
我々は,この課題に対して,最先端のユニモーダルベースラインとマルチモーダルベースラインの限界を示す。
論文 参考訳(メタデータ) (2022-06-14T23:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。