論文の概要: Towards Omnidirectional Reasoning with 360-R1: A Dataset, Benchmark, and GRPO-based Method
- arxiv url: http://arxiv.org/abs/2505.14197v1
- Date: Tue, 20 May 2025 10:55:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.078522
- Title: Towards Omnidirectional Reasoning with 360-R1: A Dataset, Benchmark, and GRPO-based Method
- Title(参考訳): 360-R1による全方位推論に向けて:データセット,ベンチマーク,GRPOに基づく手法
- Authors: Xinshen Zhang, Zhen Ye, Xu Zheng,
- Abstract要約: 我々は,最初のデータセットであるOmniVQAを導入し,全方向視覚質問応答のための最初のベンチマークを行う。
最先端MLLMの評価結果から,全方向視覚質問応答の処理における限界が明らかとなった。
本研究ではQwen2.5-VL-Instructに基づく規則に基づく強化学習手法である360-R1を提案する。
- 参考スコア(独自算出の注目度): 8.039453341761538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Omnidirectional images (ODIs), with their 360{\deg} field of view, provide unparalleled spatial awareness for immersive applications like augmented reality and embodied AI. However, the capability of existing multi-modal large language models (MLLMs) to comprehend and reason about such panoramic scenes remains underexplored. This paper addresses this gap by introducing OmniVQA, the first dataset and conducting the first benchmark for omnidirectional visual question answering. Our evaluation of state-of-the-art MLLMs reveals significant limitations in handling omnidirectional visual question answering, highlighting persistent challenges in object localization, feature extraction, and hallucination suppression within panoramic contexts. These results underscore the disconnect between current MLLM capabilities and the demands of omnidirectional visual understanding, which calls for dedicated architectural or training innovations tailored to 360{\deg} imagery. Building on the OmniVQA dataset and benchmark, we further introduce a rule-based reinforcement learning method, 360-R1, based on Qwen2.5-VL-Instruct. Concretely, we modify the group relative policy optimization (GRPO) by proposing three novel reward functions: (1) reasoning process similarity reward, (2) answer semantic accuracy reward, and (3) structured format compliance reward. Extensive experiments on our OmniVQA demonstrate the superiority of our proposed method in omnidirectional space (+6% improvement).
- Abstract(参考訳): ODI(Omnidirectional Image)は、360{\deg}視野で、拡張現実や組み込みAIのような没入型アプリケーションに対して、非並列な空間認識を提供する。
しかし、そのようなパノラマシーンを理解・推論する既存のマルチモーダル・大規模言語モデル(MLLM)の能力は、いまだ解明されていない。
本稿では、最初のデータセットであるOmniVQAを導入し、全方向視覚質問応答のための最初のベンチマークを実行することで、このギャップに対処する。
現状のMLLMを評価した結果,全方向視覚質問応答の処理において,パノラマ的文脈における物体の局所化,特徴抽出,幻覚抑制の持続的課題が強調された。
これらの結果は、現在のMLLM機能と、360{\deg}の画像に合わせたアーキテクチャやトレーニングの専門的なイノベーションを要求する全方向の視覚的理解の要求との断絶を浮き彫りにしている。
さらに,OmniVQAデータセットとベンチマークに基づいて,Qwen2.5-VL-Instructに基づく規則に基づく強化学習手法である360-R1を導入する。
具体的には,(1)推論プロセス類似性報酬,(2)応答意味精度報酬,(3)構造化フォーマットコンプライアンス報酬の3つの新しい報酬関数を提案することで,グループ相対ポリシー最適化(GRPO)を修正した。
OmniVQAの広汎な実験により,全方向空間における提案手法の優位性(+6%改善)が示された。
関連論文リスト
- EmbRACE-3K: Embodied Reasoning and Action in Complex Environments [48.32142591866083]
EmRACE-3KはUnreal EngineとUnrealCV-Zooフレームワークを使って構築された3000以上の言語誘導タスクのデータセットである。
探索,動的空間意味推論,多段階ゴール実行の3つの重要な次元にわたって,VLMの具体的推論能力を評価するためのベンチマークを構築した。
ゼロショット設定では、すべてのモデルが20%未満の成功率を達成した。
論文 参考訳(メタデータ) (2025-07-14T17:59:46Z) - SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization [57.484274282231226]
本稿では,R1スタイルのトレーニングを空間VQAに拡張する最初のフレームワークであるSVQA-R1を提案する。
特に,オブジェクト間の空間的関係を摂動させることで,視点に一貫性のある報酬を構成する新しいグループワイドRL戦略であるSpatial-GRPOを紹介する。
我々のモデルSVQA-R1は空間的VQAベンチマークの精度を劇的に向上させるだけでなく、教師付き微調整データを使用しなくても解釈可能な推論経路を示す。
論文 参考訳(メタデータ) (2025-06-02T06:58:43Z) - DIP-R1: Deep Inspection and Perception with RL Looking Through and Understanding Complex Scenes [51.895756593200296]
RL(DIP-R1)を用いた深部検査と知覚は,MLLMの視覚知覚能力を高めるために設計されている。
DIP-R1は、3つのシンプルなルールベースの報酬モデルを通して、MLLMをビジュアルシーンの詳細な検査を通してガイドする。
ドメイン内およびドメイン外のさまざまなシナリオにおいて、一貫性と大幅な改善を実現します。
論文 参考訳(メタデータ) (2025-05-29T07:16:16Z) - Towards Comprehensive Scene Understanding: Integrating First and Third-Person Views for LVLMs [21.092805986558346]
E3VQAは,ego-exo画像対をベースとした4Kの高品質な質問応答対を用いた,マルチビュー質問応答のための最初のベンチマークである。
また、3つの相補的な視点からシーングラフを統合することにより、統一的なシーン表現を構築するトレーニングフリープロンプト技術であるM3CoTを提案する。
論文 参考訳(メタデータ) (2025-05-28T04:09:42Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [47.237216851265316]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Are Multimodal Large Language Models Ready for Omnidirectional Spatial Reasoning? [66.88619941063048]
MLLM(Multimodal large language model)は全方向空間推論に対応しているのか?
OSR-Benchはこの設定のために特別に設計された最初のベンチマークである。
高忠実度パノラマ屋内シーンマップには、153,000以上の多様な質問応答ペアが含まれている。
GPT-4o, Gemini 1.5 Proを含む8つの最先端MLLMを評価し, ゼロショット設定で主要なオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2025-05-17T08:48:40Z) - Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization [18.855378039713678]
大規模視覚言語モデル(VLM)は、特に横断的不整合の形で、重要な幻覚を引き起こす傾向がある。
本稿では、画像検索を利用した新しいアライメントフレームワークRe-Alignを紹介する。
我々はまた、微調整中に視覚的嗜好を付加する、標準の直接選好最適化の拡張であるrDPOも導入する。
論文 参考訳(メタデータ) (2025-02-18T18:59:57Z) - SURDS: Benchmarking Spatial Understanding and Reasoning in Driving Scenarios with Vision Language Models [15.50826328938879]
視覚言語モデル(VLM)の空間的推論能力を評価するためのベンチマークであるSURDSを紹介する。
nuScenesデータセットに基づいて構築されたSURDSは、41,080の視覚要求回答トレーニングインスタンスと9,250の評価サンプルで構成されている。
本研究では,空間的に接地された報酬信号を利用した強化学習に基づくアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-11-20T08:14:01Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。
既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。
本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - FGAIF: Aligning Large Vision-Language Models with Fine-grained AI Feedback [16.24562885483636]
ファイングレード人工知能フィードバック(FGAIF)によるLVLM(Large Vision-Language Models)のモダリティ調整手法を提案する。
具体的には、まずAIツールを用いて、応答の各セグメントの幻覚のタイプを予測し、細かなフィードバックの収集を行う。次に、収集された報酬データに基づいて、3つの特別な報酬モデルを訓練し、密集した報酬を生成する。最後に、新しいきめ細かいフィードバックモジュールをプロキシポリシー最適化(PPO)アルゴリズムに統合する。
論文 参考訳(メタデータ) (2024-04-07T19:00:45Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。