論文の概要: 360° Image Perception with MLLMs: A Comprehensive Benchmark and a Training-Free Method
- arxiv url: http://arxiv.org/abs/2603.16179v1
- Date: Tue, 17 Mar 2026 07:00:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.137822
- Title: 360° Image Perception with MLLMs: A Comprehensive Benchmark and a Training-Free Method
- Title(参考訳): MLLMを用いた360度画像認識:総合的ベンチマークと学習自由法
- Authors: Huyen T. T. Tran, Van-Quang Nguyen, Farros Alferro, Kang-Jun Liu, Takayuki Okatani,
- Abstract要約: 我々は、高解像度の360 VQAのためのトレーニング不要なシーングラフベースのフレームワークFree360を開発した。
Free360は、推論プロセスをモジュラーステップに分解し、各ステップに適合した360画像に適応的な球面画像変換を適用し、その結果情報をシームレスに解答生成のための統一グラフ表現に統合する。
実験によると、Free360はベースMLLMを一貫して改善し、360 VQAタスクに対して強力なトレーニング不要のソリューションを提供する。
- 参考スコア(独自算出の注目度): 13.535148142390817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have shown impressive abilities in understanding and reasoning over conventional images. However, their perception of 360° images remains largely underexplored. Unlike conventional images, 360° images capture the entire surrounding environment, enabling holistic spatial reasoning but introducing challenges such as geometric distortion and complex spatial relations. To comprehensively assess MLLMs' capabilities to perceive 360° images, we introduce 360Bench, a Visual Question Answering (VQA) benchmark featuring 7K-resolution 360° images, seven representative (sub)tasks with annotations carefully curated by human annotators. Using 360Bench, we systematically evaluate seven MLLMs and six enhancement methods, revealing their shortcomings in 360° image perception. To address these challenges, we propose Free360, a training-free scene-graph-based framework for high-resolution 360° VQA. Free360 decomposes the reasoning process into modular steps, applies adaptive spherical image transformations to 360° images tailored to each step, and seamlessly integrates the resulting information into a unified graph representation for answer generation. Experiments show that Free360 consistently improves its base MLLM and provides a strong training-free solution for 360° VQA tasks. The source code and dataset will be publicly released upon acceptance.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、従来の画像に対する理解と推論に優れた能力を示している。
しかし、その360度画像に対する認識は、いまだほとんど探索されていない。
従来の画像とは異なり、360度画像は周囲の環境全体を捉え、全体論的な空間推論を可能にするが、幾何学的歪みや複雑な空間関係のような課題を導入する。
360°画像を認識するMLLMの能力を総合的に評価するために,視覚質問回答(VQA)ベンチマークである360Benchを紹介した。
360Benchを用いて、7つのMLLMと6つの拡張手法を体系的に評価し、その欠点を360°画像知覚で明らかにした。
これらの課題に対処するために、高解像度の360度VQAのためのトレーニング不要なシーングラフベースのフレームワークFree360を提案する。
Free360は、推論プロセスをモジュラーステップに分解し、各ステップに合わせて360度画像に適応的な球面画像変換を適用し、結果情報をシームレスに解答生成のための統一グラフ表現に統合する。
実験によると、Free360はベースMLLMを一貫して改善し、360度VQAタスクに対して強力なトレーニング不要のソリューションを提供する。
ソースコードとデータセットは、受理時に公開される。
関連論文リスト
- OMEGA-Avatar: One-shot Modeling of 360° Gaussian Avatars [54.688420347927725]
OMEGA-Avatarは、単一の画像から一般化可能で360度完全でアニマブルな3Dガウスヘッドを同時に生成する最初のフレームワークである。
OMEGA-Avatarは最先端の性能を達成し,360度フルヘッド完全性において既存のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-12T08:16:38Z) - 360Anything: Geometry-Free Lifting of Images and Videos to 360° [51.50120114305155]
既存のアプローチは、パースペクティブと等方射影空間の間の明示的な幾何学的アライメントに依存している。
事前学習した拡散変換器上に構築された幾何学的自由度フレームワークである360Anythingを提案する。
提案手法は,映像と映像の視点-360生成における最先端性能を実現する。
論文 参考訳(メタデータ) (2026-01-22T18:45:59Z) - DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training [76.82789568988557]
DiT360は、パノラマ画像生成のための視点とパノラマデータを用いたハイブリッドトレーニングを行う、DiTベースのフレームワークである。
提案手法は,11の定量的指標間で境界の整合性と画像の忠実度を向上する。
論文 参考訳(メタデータ) (2025-10-13T17:59:15Z) - Dream360: Diverse and Immersive Outdoor Virtual Scene Creation via
Transformer-Based 360 Image Outpainting [33.95741744421632]
本研究では,Dream360と呼ばれる変換器を用いた360度画像出力フレームワークを提案する。
ユーザが選択したビューポートから多種多様で高忠実で高解像度のパノラマを生成することができる。
私たちのDream360は、既存の方法よりもFrechet Inception Distance(FID)スコアが大幅に低く、視覚的忠実度が向上します。
論文 参考訳(メタデータ) (2024-01-19T09:01:20Z) - Perceptual Quality Assessment of 360$^\circ$ Images Based on Generative
Scanpath Representation [40.00063797833765]
360$circ$画像の品質を効果的に推定するための一意な生成性スキャンパス表現(GSR)を導入する。
GSRは、予め定義された視聴条件下で、多義語利用者の知覚経験を集約する。
そこで我々は,高品質マップGSRを学習し,効率的なOIQA計算フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-07T04:10:30Z) - NeO 360: Neural Fields for Sparse View Synthesis of Outdoor Scenes [59.15910989235392]
屋外シーンのスパースビュー合成のためのNeO 360, Neural Fieldを紹介する。
NeO 360は、単一のまたは少数のRGB画像から360degのシーンを再構成する一般化可能な方法である。
我々の表現は、Voxel-basedとBird's-eye-view (BEV)の両方の表現の長所を組み合わせたものである。
論文 参考訳(メタデータ) (2023-08-24T17:59:50Z) - NeuralLift-360: Lifting An In-the-wild 2D Photo to A 3D Object with
360{\deg} Views [77.93662205673297]
本研究では,1枚の画像を3Dオブジェクトに持ち上げるという課題について検討する。
所定の参照画像とよく一致する360度ビューを持つ可視3Dオブジェクトを生成する能力を示す。
本稿では,深度を考慮した放射率表現を用いたニューラルLift-360という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-29T17:59:06Z) - 360{\deg} Optical Flow using Tangent Images [18.146747748702513]
等角射影 (ERP) は、360度画像の保存、処理、視覚化において最も一般的なフォーマットである。
タンジェント画像に基づく360度光フロー法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:50:46Z) - Visual Question Answering on 360{\deg} Images [96.00046925811515]
VQA 360は、360度画像上で視覚的な質問に答える新しいタスクである。
最初のVQA 360データセットを収集し、様々な質問タイプに対して、約17,000の現実世界の画像検索用トリプルを含む。
論文 参考訳(メタデータ) (2020-01-10T08:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。