論文の概要: Reconstruction as a Bridge for Event-Based Visual Question Answering
- arxiv url: http://arxiv.org/abs/2512.11510v1
- Date: Fri, 12 Dec 2025 12:16:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.762933
- Title: Reconstruction as a Bridge for Event-Based Visual Question Answering
- Title(参考訳): イベントベースの視覚質問応答のためのブリッジとしての再構築
- Authors: Hanyue Lou, Jiayi Zhou, Yang Zhang, Boyu Li, Yi Wang, Guangnan Ye, Boxin Shi,
- Abstract要約: 本稿では,簡単なフレームベース再構成・トークン化(FRT)法と適応再構成・トークン化(ART)法を提案する。
堅牢な評価のために、22の公開データセットから1000のイベント-Q&Aペアからなる、イベントベースのMLLMの最初の目的、実世界のベンチマークであるEvQAを紹介する。
提案手法は,EvQA上での最先端性能を実証し,イベントベースビジョンにおけるMLLMの意義を明らかにする。
- 参考スコア(独自算出の注目度): 50.47820990163094
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Integrating event cameras with Multimodal Large Language Models (MLLMs) promises general scene understanding in challenging visual conditions, yet requires navigating a trade-off between preserving the unique advantages of event data and ensuring compatibility with frame-based models. We address this challenge by using reconstruction as a bridge, proposing a straightforward Frame-based Reconstruction and Tokenization (FRT) method and designing an efficient Adaptive Reconstruction and Tokenization (ART) method that leverages event sparsity. For robust evaluation, we introduce EvQA, the first objective, real-world benchmark for event-based MLLMs, comprising 1,000 event-Q&A pairs from 22 public datasets. Our experiments demonstrate that our methods achieve state-of-the-art performance on EvQA, highlighting the significant potential of MLLMs in event-based vision.
- Abstract(参考訳): イベントカメラとMLLM(Multimodal Large Language Models)を統合することで、難易度の高い視覚的条件に対する一般的な理解が可能になるが、イベントデータのユニークな利点の保存とフレームベースのモデルとの互換性の確保との間にはトレードオフがある。
本稿では, 橋梁としての再構築, 直感的なフレームベース再構築とトークン化(FRT)手法の提案, イベントの空間性を利用した適応再構築とトークン化(ART)手法の設計により, この問題に対処する。
堅牢な評価のために、22の公開データセットから1000のイベント-Q&Aペアからなる、イベントベースのMLLMの最初の目的、実世界のベンチマークであるEvQAを紹介する。
提案手法は,EvQA上での最先端性能を実証し,イベントベースビジョンにおけるMLLMの意義を明らかにする。
関連論文リスト
- Co-Training Vision Language Models for Remote Sensing Multi-task Learning [68.15604397741753]
視覚言語モデル(VLM)は、RS画像理解、グラウンド化、超高解像度(UHR)画像推論において有望な結果を得た。
本稿では,RSMTLのための簡易かつ柔軟なVLMベースラインであるRSCoVLMを提案する。
本稿では、RS画像に固有の多様な画像スケールに対処する、統一された動的解像度戦略を提案する。
論文 参考訳(メタデータ) (2025-11-26T10:55:07Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - LLM-EvRep: Learning an LLM-Compatible Event Representation Using a Self-Supervised Framework [11.30784253260618]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著なゼロショット機能を示した。
textbfLLM-EvRep のイベント表現を生成するイベント表現生成器 textbfLLM-EvGen を提案する。
N-ImageNet、N-Caltech101、N-MNISTの3つのデータセットで総合実験を行った。
論文 参考訳(メタデータ) (2025-02-20T05:18:36Z) - Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization [40.77611907215627]
大規模視覚言語モデル(VLM)は、特に横断的不整合の形で、重要な幻覚を引き起こす傾向がある。
本稿では、画像検索を利用した新しいアライメントフレームワークRe-Alignを紹介する。
我々はまた、微調整中に視覚的嗜好を付加する、標準の直接選好最適化の拡張であるrDPOも導入する。
論文 参考訳(メタデータ) (2025-02-18T18:59:57Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。