論文の概要: MISAR: A Multimodal Instructional System with Augmented Reality
- arxiv url: http://arxiv.org/abs/2310.11699v1
- Date: Wed, 18 Oct 2023 04:15:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 17:46:27.908374
- Title: MISAR: A Multimodal Instructional System with Augmented Reality
- Title(参考訳): MISAR:拡張現実を付加したマルチモーダル教育システム
- Authors: Jing Bi, Nguyen Manh Nguyen, Ali Vosoughi, Chenliang Xu
- Abstract要約: Augmented Reality (AR) は、視覚、聴覚、言語チャネルのシームレスな統合を必要とする。
本研究では,大規模言語モデル(LLM)を用いた視覚・聴覚・文脈の類似化手法を提案する。
- 参考スコア(独自算出の注目度): 38.79160527414268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Augmented reality (AR) requires the seamless integration of visual, auditory,
and linguistic channels for optimized human-computer interaction. While
auditory and visual inputs facilitate real-time and contextual user guidance,
the potential of large language models (LLMs) in this landscape remains largely
untapped. Our study introduces an innovative method harnessing LLMs to
assimilate information from visual, auditory, and contextual modalities.
Focusing on the unique challenge of task performance quantification in AR, we
utilize egocentric video, speech, and context analysis. The integration of LLMs
facilitates enhanced state estimation, marking a step towards more adaptive AR
systems. Code, dataset, and demo will be available at
https://github.com/nguyennm1024/misar.
- Abstract(参考訳): Augmented Reality (AR) は、視覚、聴覚、言語チャネルのシームレスな統合を必要とする。
聴覚および視覚入力は、リアルタイムおよびコンテキストのユーザガイダンスを促進するが、この状況における大規模言語モデル(llm)の可能性はほとんどない。
本研究では,視覚,聴覚,文脈からの情報の同化にLLMを用いた革新的な手法を提案する。
arにおけるタスクパフォーマンス定量化のユニークな課題に着目し,エゴセントリックビデオ,音声,文脈分析を用いた。
LLMの統合は、より適応的なARシステムへの一歩として、状態推定の強化を促進する。
コード、データセット、デモはhttps://github.com/nguyennm1024/misarで入手できる。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。
モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。
我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - LLM-Assisted Visual Analytics: Opportunities and Challenges [4.851427485686741]
本稿では,大規模言語モデル (LLM) を視覚分析システム (VA) に統合することを検討する。
LLMがVAにもたらす新たな可能性、特に通常のユースケースを超えてVAプロセスを変更する方法について強調する。
VAタスクで現在のLLMを使用する際の顕著な課題を慎重に検討する。
論文 参考訳(メタデータ) (2024-09-04T13:24:03Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - IM-RAG: Multi-Round Retrieval-Augmented Generation Through Learning Inner Monologues [10.280113107290067]
IM-RAGアプローチは、多ラウンドRAGをサポートするために、情報検索システムとLarge Language Models (LLM)を統合する。
IMプロセス全体が強化学習(Reinforcement Learning, RL)によって最適化され、プログレストラッカーが組み込まれ、中間段階の報酬が提供される。
提案手法は, 赤外線モジュールの統合において高い柔軟性を提供しながら, 最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2024-05-15T12:41:20Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。