論文の概要: LoXR: Performance Evaluation of Locally Executing LLMs on XR Devices
- arxiv url: http://arxiv.org/abs/2502.15761v1
- Date: Thu, 13 Feb 2025 20:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 02:51:30.302237
- Title: LoXR: Performance Evaluation of Locally Executing LLMs on XR Devices
- Title(参考訳): LoXR:XRデバイス上での局所実行LDMの性能評価
- Authors: Dawar Khan, Xinyu Liu, Omar Mena, Donggang Jia, Alexandre Kouyoumdjian, Ivan Viola,
- Abstract要約: 4つのXRデバイスに17の大規模言語モデル(LLM)をデプロイします。
性能の整合性、処理速度、メモリ使用量、バッテリ消費の4つの主要な指標で性能を評価する。
- 参考スコア(独自算出の注目度): 55.33807002543901
- License:
- Abstract: The deployment of large language models (LLMs) on extended reality (XR) devices has great potential to advance the field of human-AI interaction. In the case of direct, on-device model inference, selecting the appropriate model and device for specific tasks remains challenging. In this paper, we deploy 17 LLMs across four XR devices--Magic Leap 2, Meta Quest 3, Vivo X100s Pro, and Apple Vision Pro, and conduct a comprehensive evaluation. We devise an experimental setup and evaluate performance on four key metrics: performance consistency, processing speed, memory usage, and battery consumption. For each of the 68 model-device pairs, we assess performance under varying string lengths, batch sizes, and thread counts, analyzing the trade-offs for real-time XR applications. We finally propose a unified evaluation method based on the Pareto Optimality theory to select the optimal device-model pairs from the quality and speed objectives. We believe our findings offer valuable insights to guide future optimization efforts for LLM deployment on XR devices. Our evaluation method can be followed as standard groundwork for further research and development in this emerging field. All supplemental materials are available at www.nanovis.org/Loxr.html.
- Abstract(参考訳): 拡張現実(XR)デバイスへの大規模言語モデル(LLM)の展開は、人間とAIの相互作用の分野を前進させる大きな可能性を秘めている。
デバイス上で直接のモデル推論の場合、特定のタスクに対して適切なモデルとデバイスを選択することは依然として困難である。
本稿では,Magic Leap 2,Meta Quest 3,Vivo X100s Pro,Apple Vision Proの4つのデバイスに17個のLLMをデプロイし,包括的な評価を行う。
実験的なセットアップを考案し,パフォーマンスの整合性,処理速度,メモリ使用量,バッテリ使用量という4つの重要な指標でパフォーマンスを評価する。
68のモデルデバイスペアに対して,文字列長,バッチサイズ,スレッド数の違いによる性能評価を行い,リアルタイムXRアプリケーションのトレードオフを分析した。
最後に,Pareto Optimality理論に基づく統一評価手法を提案し,品質と速度の目標から最適なデバイスモデルペアを選択する。
我々は,XR デバイス上での LLM デプロイメントの今後の最適化の取り組みをガイドするための貴重な洞察を提供すると考えている。
この新興分野におけるさらなる研究・開発のための標準基盤として,本評価手法に従うことができる。
すべての追加資料はwww.nanovis.org/Loxr.htmlで入手できる。
関連論文リスト
- MomentSeeker: A Comprehensive Benchmark and A Strong Baseline For Moment Retrieval Within Long Videos [62.01402470874109]
我々は、一般的な長時間ビデオモーメント検索タスクの処理において、検索モデルの性能を評価するベンチマークであるMomentSeekerを提案する。
平均で500秒を超える長いビデオが組み込まれており、長時間ビデオのモーメント検索に特化した最初のベンチマークとなっている。
幅広いタスクカテゴリ(Moment Search, Caption Alignment, Image-conditioned Moment Search, Video-conditioned Moment Searchなど)と多様なアプリケーションシナリオをカバーする。
さらに、MLLMベースのLVMRレトリバーを合成データ上に微調整し、ベンチマークで高い性能を示す。
論文 参考訳(メタデータ) (2025-02-18T05:50:23Z) - InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model [80.93387166769679]
IXC-2.5-Rewardは、大規模視覚言語モデルと人間の好みを一致させる、単純で効果的なマルチモーダル報酬モデルである。
IXC-2.5-Rewardは、最新のマルチモーダル報酬モデルベンチマークにおいて優れた結果を得るとともに、テキストのみの報酬モデルベンチマーク上での競合性能を示す。
論文 参考訳(メタデータ) (2025-01-21T18:47:32Z) - DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding [35.522774800394664]
IDEA Researchが開発した統合オブジェクト中心ビジョンモデルであるDINO-Xを紹介する。
DINO-Xは、オープンワールドオブジェクト理解のためのオブジェクトレベルの表現を追求するために、Grounding DINO 1.5と同じTransformerベースのエンコーダデコーダアーキテクチャを使用している。
我々は,プロンプトのないオープンワールド検出をサポートする汎用オブジェクトプロンプトを開発し,ユーザがプロンプトを提供することなく,画像中のあらゆるものを検出できるようにする。
論文 参考訳(メタデータ) (2024-11-21T17:42:20Z) - How to Evaluate Reward Models for RLHF [51.31240621943791]
我々は、RLHF(Reinforcement Learning from Human Feedback)を通して強力な言語モデルを生成する能力を定量化する報酬モデルのための新しいベンチマークを導入する。
我々は,プロキシタスクの報酬モデルを評価することにより,下流LLM性能の予測モデルを構築した。
大規模クラウドソースによる人選好プラットフォーム上でのエンドツーエンドのRLHF実験をローンチした。
論文 参考訳(メタデータ) (2024-10-18T21:38:21Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation [19.312330150540912]
新たなアプリケーションは、Large Language Models(LLMs)を使用して、検索強化世代(RAG)機能を強化している。
FRAMESは,LLMが現実的な応答を提供する能力をテストするために設計された高品質な評価データセットである。
本稿では,最先端のLLMでもこの課題に対処し,0.40の精度で検索を行なわないことを示す。
論文 参考訳(メタデータ) (2024-09-19T17:52:07Z) - Vidur: A Large-Scale Simulation Framework For LLM Inference [9.854130239429487]
VidurはLLM推論性能のための大規模かつ高忠実なシミュレーションフレームワークである。
LLMデプロイメントの最適化を支援する構成検索ツールであるVidurSearchを紹介する。
論文 参考訳(メタデータ) (2024-05-08T23:42:13Z) - MELTing point: Mobile Evaluation of Language Transformers [8.238355633015068]
大規模言語モデル(LLM)のモバイル実行の現状について検討する。
我々は,デバイス上でのLLMのヘッドレス実行とベンチマークをサポートする,独自の自動化インフラストラクチャMELTを開発した。
我々は、一般的な命令の微調整 LLM を評価し、それぞれのフレームワークを用いてエンドツーエンドおよび粒度の性能を計測する。
論文 参考訳(メタデータ) (2024-03-19T15:51:21Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension [27.53415400454066]
生成モデルを評価するためにSEED-Benchというベンチマークを導入する。
SEED-Benchは、正確な人間のアノテーションを持つ19Kの複数の選択質問からなる。
空間的および時間的理解の両面を網羅し,全12次元にわたる18モデルの性能評価を行った。
論文 参考訳(メタデータ) (2023-07-30T04:25:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。