論文の概要: PointArena: Probing Multimodal Grounding Through Language-Guided Pointing
- arxiv url: http://arxiv.org/abs/2505.09990v1
- Date: Thu, 15 May 2025 06:04:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.199958
- Title: PointArena: Probing Multimodal Grounding Through Language-Guided Pointing
- Title(参考訳): PointArena: 言語ガイドポインティングによるマルチモーダルグラウンドの探索
- Authors: Long Cheng, Jiafei Duan, Yi Ru Wang, Haoquan Fang, Boyang Li, Yushan Huang, Elvis Wang, Ainaz Eftekhar, Jason Lee, Wentao Yuan, Rose Hendrix, Noah A. Smith, Fei Xia, Dieter Fox, Ranjay Krishna,
- Abstract要約: ポインティングは、視覚的コンテキスト内で言語を接地するための基本的で直感的なメカニズムとして機能する。
多様な推論シナリオを対象とするマルチモーダル評価のための総合的なプラットフォームであるPointArenaを紹介した。
- 参考スコア(独自算出の注目度): 79.80132157576978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pointing serves as a fundamental and intuitive mechanism for grounding language within visual contexts, with applications spanning robotics, assistive technologies, and interactive AI systems. While recent multimodal models have started to support pointing capabilities, existing benchmarks typically focus only on referential object localization tasks. We introduce PointArena, a comprehensive platform for evaluating multimodal pointing across diverse reasoning scenarios. PointArena comprises three components: (1) Point-Bench, a curated dataset containing approximately 1,000 pointing tasks across five reasoning categories; (2) Point-Battle, an interactive, web-based arena facilitating blind, pairwise model comparisons, which has already gathered over 4,500 anonymized votes; and (3) Point-Act, a real-world robotic manipulation system allowing users to directly evaluate multimodal model pointing capabilities in practical settings. We conducted extensive evaluations of both state-of-the-art open-source and proprietary multimodal models. Results indicate that Molmo-72B consistently outperforms other models, though proprietary models increasingly demonstrate comparable performance. Additionally, we find that supervised training specifically targeting pointing tasks significantly enhances model performance. Across our multi-stage evaluation pipeline, we also observe strong correlations, underscoring the critical role of precise pointing capabilities in enabling multimodal models to effectively bridge abstract reasoning with concrete, real-world actions. Project page: https://pointarena.github.io/
- Abstract(参考訳): ポインティングは、ロボット工学、補助技術、対話型AIシステムにまたがるアプリケーションによって、視覚的コンテキスト内で言語を基礎付けるための基本的で直感的なメカニズムとして機能する。
最近のマルチモーダルモデルはポインティング機能をサポートし始めたが、既存のベンチマークは通常、参照オブジェクトのローカライゼーションタスクのみに焦点を当てている。
多様な推論シナリオを対象とするマルチモーダル評価のための総合的なプラットフォームであるPointArenaを紹介した。
PointArena は,(1) Point-Bench,(2) Point-Battle,対話型Webベースのアリーナで,すでに4500票以上の匿名投票を集めている。
我々は、最先端のオープンソースモデルとプロプライエタリなマルチモーダルモデルの両方について広範な評価を行った。
結果は、Momo-72Bが他のモデルより一貫して優れていることを示しているが、プロプライエタリなモデルは同等のパフォーマンスを示している。
さらに,ポインティングタスクを対象とする教師付きトレーニングがモデル性能を大幅に向上させることがわかった。
多段階評価パイプライン全体にわたって、強い相関関係も観察し、具体的な実世界のアクションで抽象的推論を効果的に橋渡しするマルチモーダルモデルを実現する上で、正確なポインティング能力の重要な役割を強調した。
プロジェクトページ: https://pointarena.github.io/
関連論文リスト
- Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision [25.31489336119893]
重要なロボットビジョンタスクにおけるマルチモーダル融合の応用を体系的に検討する。
視覚言語モデル(VLM)と従来のマルチモーダル融合法を比較し,その利点,限界,シナジーを分析した。
クロスモーダルアライメント、効率的な融合戦略、リアルタイムデプロイメント、ドメイン適応といった重要な研究課題を特定します。
論文 参考訳(メタデータ) (2025-04-03T10:53:07Z) - VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文 参考訳(メタデータ) (2025-03-13T12:03:37Z) - Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Multimodal CLIP Inference for Meta-Few-Shot Image Classification [0.0]
CLIPのようなマルチモーダル基盤モデルは、ジョイント(イメージ、テキスト)埋め込みを学ぶ。
本研究では、CLIPのテキストと画像エンコーダのモダリティを組み合わせることで、広く採用されているベンチマークにおいて、最先端のメタファ学習者より優れていることを示す。
論文 参考訳(メタデータ) (2024-03-26T17:47:54Z) - ChatterBox: Multi-round Multimodal Referring and Grounding [108.9673313949746]
この目的のために,新しいベンチマークと効率的な視覚言語モデルを提案する。
提案したChatterBoxは、2ブランチアーキテクチャを使って視覚と言語タスクを協調的に処理する。
実験の結果、ChatterBoxはMRGの既存のモデルよりも定量的にも質的にも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-24T09:02:00Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。