論文の概要: OpenView: Empowering MLLMs with Out-of-view VQA
- arxiv url: http://arxiv.org/abs/2512.18563v1
- Date: Sun, 21 Dec 2025 02:11:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.398544
- Title: OpenView: Empowering MLLMs with Out-of-view VQA
- Title(参考訳): OpenView: 外部VQAによるMLLMの強化
- Authors: Qixiang Chen, Cheng Zhang, Chi-Wing Fu, Jingwen Ye, Jianfei Cai,
- Abstract要約: 本稿では、視界の視界を超えた物体、活動、シーンを推論する能力である外見理解(OOV)に関する最初の研究について述べる。
パノラマ画像を活用することで、多点VQAを大量生成する4段階パイプラインであるOpenViewを設計する。
OpenView-Benchは,評価の解釈と診断のための選択と合理化の精度を共同で測定するベンチマークである。
- 参考スコア(独自算出の注目度): 73.09076507585404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent multimodal large language models (MLLMs) show great potential in natural image understanding. Yet, they perform well, mainly on reasoning in-view contents within the image frame. This paper presents the first study on out-of-view (OOV) understanding, i.e., the ability to reason objects, activities, and scenes beyond the visible frame of a perspective view. Our technical contributions are threefold. First, we design OpenView, a four-stage pipeline to massively generate multi-choice VQA by leveraging panoramic imagery to enable context-rich and spatial-grounded VQA synthesis with free-view framing. Second, we curate OpenView-Dataset, a high-quality synthetic dataset from diverse real-world panoramas to empower MLLMs upon supervised fine-tuning. Third, we build OpenView-Bench, a benchmark that jointly measures choice and rationale accuracy for interpretable and diagnosable evaluation. Experimental results show that despite having a large gap from human performance in OOV VQA answer selection, upon empowered by OpenView, multiple MLLMs can consistently boost their performance, uplifted from 48.6% to 64.1% on average. Code, benchmark, and data will be available at https://github.com/q1xiangchen/OpenView.
- Abstract(参考訳): 近年のマルチモーダル大言語モデル (MLLM) は, 自然画像の理解において大きな可能性を秘めている。
しかし、画像フレーム内のインビューの内容の推論を中心に、よく機能する。
本稿では、視界の視界を超えた物体、活動、シーンを推論する能力である外見理解(OOV)に関する最初の研究について述べる。
私たちの技術貢献は3倍です。
まず,パノラマ画像を利用する4段階のVQAパイプラインであるOpenViewを設計し,自由視点フレーミングによるコンテキストリッチな空間的VQA合成を実現する。
第2に、さまざまな現実世界のパノラマから高品質な合成データセットであるOpenView-Datasetをキュレートし、教師付き微調整によるMLLMの強化を行う。
第三にOpenView-Benchは、選択を共同で測定し、解釈可能かつ診断可能な評価のための合理的な正確性を示すベンチマークです。
実験の結果、OV VQAの回答選択において人間のパフォーマンスと大きなギャップがあるにもかかわらず、OpenViewによって権限が与えられた後、複数のMLLMは、平均で48.6%から64.1%まで、継続的にパフォーマンスを向上できることがわかった。
コード、ベンチマーク、データはhttps://github.com/q1xiangchen/OpenView.comから入手できる。
関連論文リスト
- OmniView: An All-Seeing Diffusion Model for 3D and 4D View Synthesis [80.3346344429389]
OmniViewは、広範囲な4D一貫性タスクを一般化する統合フレームワークです。
提案手法は空間,時間,ビュー条件を別々に表現し,これらの入力の柔軟な組み合わせを可能にする。
例えば、OmniViewは静的、動的、マルチビューの入力から新しいビューを合成し、軌跡を前後に外挿し、フルカメラコントロールでテキストや画像プロンプトからビデオを作成することができる。
論文 参考訳(メタデータ) (2025-12-11T18:59:05Z) - Towards Comprehensive Scene Understanding: Integrating First and Third-Person Views for LVLMs [27.872566171986946]
大きな視覚言語モデル(LVLM)は、仮想現実や拡張現実のようなインタラクティブなアプリケーションにますます多くデプロイされている。
この問題に対処するため,我々は,エゴセントリックなインプットを第三者(外部中心)の視点で強化するフレームワークを導入する。
E3VQAは、4Kの高品質な質問応答対を同期したエゴ・エクソ画像対に固定したマルチビュー質問応答のための最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-28T04:09:42Z) - Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Instructional Videos [66.1935609072708]
LangViewは、ビュー依存のキャプション予測の相対的精度を、擬似ラベルを最もよく見るためのプロキシとして利用するフレームワークである。
推論中、我々のモデルは多視点ビデオ(言語やカメラのポーズなし)のみを入力として、各タイミングで見るのに最適な視点を返します。
論文 参考訳(メタデータ) (2024-11-13T16:31:08Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension [62.40482764691584]
MLLMのテキストに富んだ視覚的理解を評価するためのベンチマークSEED-Bench-2-Plusを紹介する。
私たちのベンチマークでは、チャート、マップ、ウェブの3つのカテゴリにまたがる、正確な人間のアノテーションによる2.3Kの多重選択質問で構成されています。
我々は,34の著名なMLLMを包含する徹底的な評価を行い,テキストリッチ視覚理解におけるMLLMの現在の限界を強調した。
論文 参考訳(メタデータ) (2024-04-25T17:39:35Z) - MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning [22.440669015518015]
マルチモーダル大言語モデル(MLLM)が抽象的な視覚的推論能力を持っているかどうかを評価する。
スドゥークパズルと同様に、抽象的視覚推論(AVR)問題は高レベルのパターンを見つける必要がある。
6つのコア知識パターン,幾何学的および抽象的形状,5つのタスク構成からなる770個のMLLMのベンチマークであるMARVELを紹介する。
論文 参考訳(メタデータ) (2024-04-21T09:15:02Z) - POV: Prompt-Oriented View-Agnostic Learning for Egocentric Hand-Object
Interaction in the Multi-View World [59.545114016224254]
人間は、手と物体の相互作用の第三者による観察をエゴセントリックな視点に変換するのに長けている。
本稿では,自我中心の動画をほとんど持たない視点適応を実現するための,Prompt-Oriented View-Agnostic Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-09T09:54:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。