論文の概要: Fine-Grained Vision-Language Modeling for Multimodal Training Assistants in Augmented Reality
- arxiv url: http://arxiv.org/abs/2507.05515v1
- Date: Mon, 07 Jul 2025 22:29:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.43149
- Title: Fine-Grained Vision-Language Modeling for Multimodal Training Assistants in Augmented Reality
- Title(参考訳): 拡張現実におけるマルチモーダル・トレーニング・アシスタントのためのファイングラインド・ビジョン・ランゲージ・モデリング
- Authors: Haochen Huang, Jiahuan Pei, Mohammad Aliannejadi, Xin Sun, Moonisa Ahsan, Pablo Cesar, Chuang Yu, Zhaochun Ren, Junxiao Wang,
- Abstract要約: 視覚言語モデル(VLM)は、マルチモーダル環境におけるAIによるスマートアシスタントの解釈と推論を可能にするために不可欠である。
私たちの研究は、特に視覚障害者や視覚障害者がAIによる学習機会を平等に利用できるようにするための幅広い社会的意味を持っている。
- 参考スコア(独自算出の注目度): 22.6701800159627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) are essential for enabling AI-powered smart assistants to interpret and reason in multimodal environments. However, their application in augmented reality (AR) training remains largely unexplored. In this work, we introduce a comprehensive dataset tailored for AR training, featuring systematized vision-language tasks, and evaluate nine state-of-the-art VLMs on it. Our results reveal that even advanced models, including GPT-4o, struggle with fine-grained assembly tasks, achieving a maximum F1 score of just 40.54% on state detection. These findings highlight the demand for enhanced datasets, benchmarks, and further research to improve fine-grained vision-language alignment. Beyond technical contributions, our work has broader social implications, particularly in empowering blind and visually impaired users with equitable access to AI-driven learning opportunities. We provide all related resources, including the dataset, source code, and evaluation results, to support the research community.
- Abstract(参考訳): 視覚言語モデル(VLM)は、マルチモーダル環境におけるAIによるスマートアシスタントの解釈と推論を可能にするために不可欠である。
しかし、拡張現実(AR)トレーニングへの応用については、まだほとんど未検討である。
本研究では、ARトレーニングに適した総合データセットを導入し、システム化された視覚言語タスクを特徴とし、その上で9つの最先端VLMを評価する。
その結果, GPT-4oを含む高度なモデルでさえ, きめ細かな組立作業に苦慮し, 状態検出におけるF1スコアは40.54%であった。
これらの調査結果は、強化されたデータセット、ベンチマーク、さらに詳細な視覚言語アライメントを改善するための研究の必要性を浮き彫りにしている。
技術的貢献以外にも、私たちの研究はより広い社会的意味を持ち、特に視覚障害者の視覚障害者にAIによる学習機会を平等に利用できるようにしている。
研究コミュニティを支援するために,データセット,ソースコード,評価結果など,関連するすべてのリソースを提供する。
関連論文リスト
- RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation [80.20970723577818]
長距離ロボット操作における高レベル推論評価のためのベンチマークであるRoboCerebraを紹介する。
データセットはトップダウンパイプラインを通じて構築され、GPTはタスク命令を生成し、それらをサブタスクシーケンスに分解する。
以前のベンチマークと比較すると、RoboCerebraはアクションシーケンスが大幅に長く、アノテーションがより密度が高い。
論文 参考訳(メタデータ) (2025-06-07T06:15:49Z) - OmniGenBench: A Benchmark for Omnipotent Multimodal Generation across 50+ Tasks [77.19223035769248]
大規模マルチモーダルモデル(LMM)の最近のブレークスルーは、画像生成のための汎用的な指示に従うのに顕著な熟練性を示している。
OmniGenBenchは、最先端のLMMの指示追従能力を評価するために、精密に設計された新しいベンチマークである。
我々のOmniGenBenchには57の多様なサブタスクが含まれており、それらが要求する特定のモデル能力に応じて体系的に分類されている。
論文 参考訳(メタデータ) (2025-05-24T16:29:34Z) - COST: Contrastive One-Stage Transformer for Vision-Language Small Object Tracking [52.62149024881728]
本稿では,視覚言語(VL)追跡のための一段変圧器融合フレームワークを提案する。
ビデオとそれに対応する言語記述間の相互情報を最大化するコントラストアライメント戦略を導入する。
視覚言語変換器を活用することにより,効率的なマルチモーダル融合・推論機構を確立する。
論文 参考訳(メタデータ) (2025-04-02T03:12:38Z) - MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action Models [34.138699712315]
本稿では、四足歩行ロボットのためのロボット専門家(MoRE)の混合であるビジョンアクション(VLA)モデルを提案する。
MoREは、複数の低ランク適応モジュールを、密集したマルチモーダルな大規模言語モデルの中で異なる専門家として統合する。
実験によると、MoREは6つの異なるスキルで全てのベースラインを上回り、アウト・オブ・ディストリビューションシナリオにおいて優れた一般化能力を示す。
論文 参考訳(メタデータ) (2025-03-11T03:13:45Z) - EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリおよびオープンソースMLLMを24件評価した。
MLLMは高いレベルのタスクで優れるが、低レベルの操作に苦戦し、最高のモデルであるGPT-4oは平均28.9%のスコアしか獲得できなかった。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation [3.2688425993442696]
本稿では,視覚言語ナビゲーション(VLN)タスクに対して,問題を4つのサブモジュールに分解してモジュール化する手法を提案する。
自然言語によるナビゲーションの指導を受けると、まずLLMにランドマークと訪問順序を抽出するよう促す。
環境のトポロジカルマップ上の最短経路アルゴリズムを用いて,開始位置から最終ランドマークまでの経路仮説を生成する。
論文 参考訳(メタデータ) (2025-02-11T07:09:37Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning [27.725814615823687]
本研究では,計画段階と実行段階の誤りを訂正する"plug-and-play"手法であるExoViPを提案する。
我々は、現在の視覚言語プログラミング手法を強化するために、検証モジュールを"exoskeletons"として採用する。
論文 参考訳(メタデータ) (2024-08-05T03:22:10Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - RS-GPT4V: A Unified Multimodal Instruction-Following Dataset for Remote Sensing Image Understanding [4.266920365127677]
新しいLaGDパラダイムの下では、古いデータセットはもはや新しいタスクには適していない。
我々は、RSI理解のための高品質で多様なマルチモーダル命令追従データセットを設計した。
実験結果から, RS-GPT4Vによる微調整MLLMは, きめ細かい情報を記述できることがわかった。
論文 参考訳(メタデータ) (2024-06-18T10:34:28Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models [45.040292339670096]
大規模視覚言語モデル(LVLM)は、その強力な推論と一般化能力を備えた幅広い視覚言語タスクの前提を示してきた。
本研究では,従来のLVLMとリソースフレンドリなライトバージョンのパフォーマンスギャップを,高品質なトレーニングデータを用いて橋渡しすることを目的とする。
論文 参考訳(メタデータ) (2024-02-18T19:26:49Z) - MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。
最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。
GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文 参考訳(メタデータ) (2023-10-03T17:57:24Z) - All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment [39.54689489555342]
現在の視覚注入(VL)トラッキングフレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成される。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。