論文の概要: Visual Grounding from Event Cameras
- arxiv url: http://arxiv.org/abs/2509.09584v1
- Date: Thu, 11 Sep 2025 16:21:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.46525
- Title: Visual Grounding from Event Cameras
- Title(参考訳): イベントカメラからの視覚的グラウンドディング
- Authors: Lingdong Kong, Dongyue Lu, Ao Liang, Rong Li, Yuhao Dong, Tianshuai Hu, Lai Xing Ng, Wei Tsang Ooi, Benoit R. Cottereau,
- Abstract要約: Talk2Eventは、イベントデータを使用した言語駆動のオブジェクトグラウンドのための最初の大規模ベンチマークである。
Talk2Eventは5,567のシーン、13,458の注釈付きオブジェクト、30,000以上の慎重に検証された参照式で構成されている。
我々はTalk2Eventを,ロボット工学や人間とAIのインタラクションといった分野にまたがる,マルチモーダルおよび時間的認識の促進の基盤として想定している。
- 参考スコア(独自算出の注目度): 26.670030443187482
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Event cameras capture changes in brightness with microsecond precision and remain reliable under motion blur and challenging illumination, offering clear advantages for modeling highly dynamic scenes. Yet, their integration with natural language understanding has received little attention, leaving a gap in multimodal perception. To address this, we introduce Talk2Event, the first large-scale benchmark for language-driven object grounding using event data. Built on real-world driving scenarios, Talk2Event comprises 5,567 scenes, 13,458 annotated objects, and more than 30,000 carefully validated referring expressions. Each expression is enriched with four structured attributes -- appearance, status, relation to the viewer, and relation to surrounding objects -- that explicitly capture spatial, temporal, and relational cues. This attribute-centric design supports interpretable and compositional grounding, enabling analysis that moves beyond simple object recognition to contextual reasoning in dynamic environments. We envision Talk2Event as a foundation for advancing multimodal and temporally-aware perception, with applications spanning robotics, human-AI interaction, and so on.
- Abstract(参考訳): イベントカメラは、マイクロ秒の精度で明るさの変化を捉え、動きのぼかしと難解な照明の下で信頼性を維持し、非常にダイナミックなシーンをモデル化する上で明確な利点を提供する。
しかし、自然言語理解との統合はほとんど注目されず、マルチモーダルな認識のギャップが残されている。
これを解決するために、イベントデータを用いた言語駆動オブジェクトグラウンドのための最初の大規模ベンチマークであるTalk2Eventを紹介します。
実世界の運転シナリオに基づいて構築されたTalk2Eventは、5,567のシーン、13,458の注釈付きオブジェクト、30,000以上の慎重に評価された参照式で構成されている。
各表現は、空間的、時間的、リレーショナルなキューを明示的にキャプチャする4つの構造化された属性(外観、状態、ビューアとの関係、および周辺オブジェクトとの関係)で富む。
この属性中心の設計は、解釈可能および構成的グラウンド化をサポートし、動的環境における単純なオブジェクト認識からコンテキスト推論へ移行する分析を可能にする。
我々はTalk2Eventを,ロボット工学や人間とAIのインタラクションといった分野にまたがる,マルチモーダルおよび時間的認識の促進の基盤として想定している。
関連論文リスト
- Event-Driven Storytelling with Multiple Lifelike Humans in a 3D Scene [13.70771642812974]
我々は,複数の人間の文脈運動を生かした,生き生きとした仮想的な動的シーンを生成するフレームワークを提案する。
我々は,大言語モデル(LLM)のパワーを適応させ,テキスト入力における文脈的複雑さを解消する。
スケーラブルで包括的なコンテキストを提供するために、ハイレベルなモジュールを採用しています。
論文 参考訳(メタデータ) (2025-07-25T12:57:05Z) - Talk2Event: Grounded Understanding of Dynamic Scenes from Event Cameras [6.174442475414146]
Talk2Eventは、イベントベースの知覚において、言語駆動のオブジェクトグラウンドのための最初の大規模ベンチマークである。
我々は3万以上の検証された参照表現を提供し、それぞれに4つの基底属性を富ませる。
マルチ属性表現を動的に融合する属性認識基盤フレームワークであるEventReferを提案する。
論文 参考訳(メタデータ) (2025-07-23T16:29:52Z) - Affogato: Learning Open-Vocabulary Affordance Grounding with Automated Data Generation at Scale [41.693908591580175]
我々は、事前学習された部分認識型ビジョンバックボーンとテキスト条件のヒートマップデコーダを利用するビジョン言語モデルを開発した。
我々のモデルは既存の2Dおよび3Dベンチマークにおいて有望な性能を達成し、特にオープン語彙のクロスドメイン一般化において有効であることを示す。
論文 参考訳(メタデータ) (2025-06-13T17:57:18Z) - Object-Centric Image to Video Generation with Language Guidance [17.50161162624179]
TextOCVPは、テキスト記述によってガイドされる画像からビデオ生成のためのオブジェクト中心モデルである。
提案手法は,テキストガイダンスを取り入れたオブジェクトのダイナミクスとインタラクションを共同でモデル化することにより,正確かつ制御可能な予測を導出する。
論文 参考訳(メタデータ) (2025-02-17T10:46:47Z) - Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。
I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。
提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文 参考訳(メタデータ) (2025-01-06T14:49:26Z) - StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images [5.529078451095096]
視覚シーンの意味を理解することはコンピュータビジョンの基本的な課題である。
テキストと画像のフレームワークの最近の進歩は、自然のシーン統計を暗黙的に捉えるモデルにつながっている。
提案するStableSemanticsは、224万件の人為的なプロンプト、処理された自然言語キャプション、200万以上の合成画像、そして個々の名詞のチャンクに対応する1000万のアテンションマップからなるデータセットである。
論文 参考訳(メタデータ) (2024-06-19T17:59:40Z) - Generating Human Motion in 3D Scenes from Text Descriptions [60.04976442328767]
本稿では,人間とシーンのインタラクションをテキストで記述した3次元屋内シーンにおけるヒューマンモーション生成の課題に焦点を当てた。
複雑な問題を2つのより管理可能なサブプロブレムに分解する新しい手法を提案する。
対象オブジェクトの言語グラウンド化には、大きな言語モデルのパワーを活用し、モーション生成には、オブジェクト中心のシーン表現を設計する。
論文 参考訳(メタデータ) (2024-05-13T14:30:12Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。