論文の概要: Towards Omnidirectional Reasoning with 360-R1: A Dataset, Benchmark, and GRPO-based Method
- arxiv url: http://arxiv.org/abs/2505.14197v1
- Date: Tue, 20 May 2025 10:55:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.078522
- Title: Towards Omnidirectional Reasoning with 360-R1: A Dataset, Benchmark, and GRPO-based Method
- Title(参考訳): 360-R1による全方位推論に向けて:データセット,ベンチマーク,GRPOに基づく手法
- Authors: Xinshen Zhang, Zhen Ye, Xu Zheng,
- Abstract要約: 我々は,最初のデータセットであるOmniVQAを導入し,全方向視覚質問応答のための最初のベンチマークを行う。
最先端MLLMの評価結果から,全方向視覚質問応答の処理における限界が明らかとなった。
本研究ではQwen2.5-VL-Instructに基づく規則に基づく強化学習手法である360-R1を提案する。
- 参考スコア(独自算出の注目度): 8.039453341761538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Omnidirectional images (ODIs), with their 360{\deg} field of view, provide unparalleled spatial awareness for immersive applications like augmented reality and embodied AI. However, the capability of existing multi-modal large language models (MLLMs) to comprehend and reason about such panoramic scenes remains underexplored. This paper addresses this gap by introducing OmniVQA, the first dataset and conducting the first benchmark for omnidirectional visual question answering. Our evaluation of state-of-the-art MLLMs reveals significant limitations in handling omnidirectional visual question answering, highlighting persistent challenges in object localization, feature extraction, and hallucination suppression within panoramic contexts. These results underscore the disconnect between current MLLM capabilities and the demands of omnidirectional visual understanding, which calls for dedicated architectural or training innovations tailored to 360{\deg} imagery. Building on the OmniVQA dataset and benchmark, we further introduce a rule-based reinforcement learning method, 360-R1, based on Qwen2.5-VL-Instruct. Concretely, we modify the group relative policy optimization (GRPO) by proposing three novel reward functions: (1) reasoning process similarity reward, (2) answer semantic accuracy reward, and (3) structured format compliance reward. Extensive experiments on our OmniVQA demonstrate the superiority of our proposed method in omnidirectional space (+6% improvement).
- Abstract(参考訳): ODI(Omnidirectional Image)は、360{\deg}視野で、拡張現実や組み込みAIのような没入型アプリケーションに対して、非並列な空間認識を提供する。
しかし、そのようなパノラマシーンを理解・推論する既存のマルチモーダル・大規模言語モデル(MLLM)の能力は、いまだ解明されていない。
本稿では、最初のデータセットであるOmniVQAを導入し、全方向視覚質問応答のための最初のベンチマークを実行することで、このギャップに対処する。
現状のMLLMを評価した結果,全方向視覚質問応答の処理において,パノラマ的文脈における物体の局所化,特徴抽出,幻覚抑制の持続的課題が強調された。
これらの結果は、現在のMLLM機能と、360{\deg}の画像に合わせたアーキテクチャやトレーニングの専門的なイノベーションを要求する全方向の視覚的理解の要求との断絶を浮き彫りにしている。
さらに,OmniVQAデータセットとベンチマークに基づいて,Qwen2.5-VL-Instructに基づく規則に基づく強化学習手法である360-R1を導入する。
具体的には,(1)推論プロセス類似性報酬,(2)応答意味精度報酬,(3)構造化フォーマットコンプライアンス報酬の3つの新しい報酬関数を提案することで,グループ相対ポリシー最適化(GRPO)を修正した。
OmniVQAの広汎な実験により,全方向空間における提案手法の優位性(+6%改善)が示された。
関連論文リスト
- Are Multimodal Large Language Models Ready for Omnidirectional Spatial Reasoning? [66.88619941063048]
MLLM(Multimodal large language model)は全方向空間推論に対応しているのか?
OSR-Benchはこの設定のために特別に設計された最初のベンチマークである。
高忠実度パノラマ屋内シーンマップには、153,000以上の多様な質問応答ペアが含まれている。
GPT-4o, Gemini 1.5 Proを含む8つの最先端MLLMを評価し, ゼロショット設定で主要なオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2025-05-17T08:48:40Z) - Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization [18.855378039713678]
大規模視覚言語モデル(VLM)は、特に横断的不整合の形で、重要な幻覚を引き起こす傾向がある。
本稿では、画像検索を利用した新しいアライメントフレームワークRe-Alignを紹介する。
我々はまた、微調整中に視覚的嗜好を付加する、標準の直接選好最適化の拡張であるrDPOも導入する。
論文 参考訳(メタデータ) (2025-02-18T18:59:57Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。
既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。
本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - FGAIF: Aligning Large Vision-Language Models with Fine-grained AI Feedback [16.24562885483636]
ファイングレード人工知能フィードバック(FGAIF)によるLVLM(Large Vision-Language Models)のモダリティ調整手法を提案する。
具体的には、まずAIツールを用いて、応答の各セグメントの幻覚のタイプを予測し、細かなフィードバックの収集を行う。次に、収集された報酬データに基づいて、3つの特別な報酬モデルを訓練し、密集した報酬を生成する。最後に、新しいきめ細かいフィードバックモジュールをプロキシポリシー最適化(PPO)アルゴリズムに統合する。
論文 参考訳(メタデータ) (2024-04-07T19:00:45Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。