論文の概要: SIGMA: An Open-Source Interactive System for Mixed-Reality Task Assistance Research
- arxiv url: http://arxiv.org/abs/2405.13035v1
- Date: Thu, 16 May 2024 21:21:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 02:48:13.076193
- Title: SIGMA: An Open-Source Interactive System for Mixed-Reality Task Assistance Research
- Title(参考訳): SIGMA:Mixed-Reality Task Assistance Researchのためのオープンソースインタラクティブシステム
- Authors: Dan Bohus, Sean Andrist, Nick Saw, Ann Paradiso, Ishani Chakraborty, Mahdi Rad,
- Abstract要約: 混合現実シナリオにおけるタスク支援エージェントの研究を行うためのプラットフォームとして,SIGMAというオープンソースシステムを紹介した。
本稿では,システムの中心となる機能について紹介し,その全体設計と実装について論じ,システムによって実現される今後の研究の方向性について概説する。
- 参考スコア(独自算出の注目度): 5.27467559535251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce an open-source system called SIGMA (short for "Situated Interactive Guidance, Monitoring, and Assistance") as a platform for conducting research on task-assistive agents in mixed-reality scenarios. The system leverages the sensing and rendering affordances of a head-mounted mixed-reality device in conjunction with large language and vision models to guide users step by step through procedural tasks. We present the system's core capabilities, discuss its overall design and implementation, and outline directions for future research enabled by the system. SIGMA is easily extensible and provides a useful basis for future research at the intersection of mixed reality and AI. By open-sourcing an end-to-end implementation, we aim to lower the barrier to entry, accelerate research in this space, and chart a path towards community-driven end-to-end evaluation of large language, vision, and multimodal models in the context of real-world interactive applications.
- Abstract(参考訳): SIGMA(Situated Interactive Guidance, Monitoring, Assistance)と呼ばれるオープンソースのシステムを導入し,複合現実シナリオにおけるタスク支援エージェントの研究を行う。
このシステムは、大きな言語や視覚モデルとともに、ヘッドマウント型複合現実感デバイスのセンシングとレンダリング能力を活用して、手続き的なタスクを段階的にユーザーを誘導する。
本稿では,システムの中心となる機能について紹介し,その全体設計と実装について論じ,システムによって実現される今後の研究の方向性について概説する。
SIGMAは容易に拡張可能であり、混合現実とAIの交差点における将来の研究に有用な基盤を提供する。
エンド・ツー・エンドの実装をオープンソース化することで、参入障壁を低くし、この分野の研究を加速し、コミュニティ主導による大規模言語、ビジョン、マルチモーダル・モデルのリアルタイム対話型アプリケーションにおけるエンド・ツー・エンド評価への道を示す。
関連論文リスト
- GUI Agents with Foundation Models: A Comprehensive Survey [52.991688542729385]
この調査は(M)LLMベースのGUIエージェントに関する最近の研究を集約する。
データ、フレームワーク、アプリケーションにおける重要なイノベーションを強調します。
本稿では, (M)LLM ベースの GUI エージェントの分野におけるさらなる発展を期待する。
論文 参考訳(メタデータ) (2024-11-07T17:28:10Z) - Constraining Participation: Affordances of Feedback Features in Interfaces to Large Language Models [49.74265453289855]
大規模言語モデル(LLM)は、コンピュータ、Webブラウザ、ブラウザベースのインターフェースによるインターネット接続を持つ人なら誰でも利用できるようになった。
本稿では,ChatGPTインタフェースにおける対話型フィードバック機能の可能性について検討し,ユーザ入力の形状やイテレーションへの参加について分析する。
論文 参考訳(メタデータ) (2024-08-27T13:50:37Z) - LEGENT: Open Platform for Embodied Agents [60.71847900126832]
LEGENTはLarge Language Models (LLM) とLarge Multimodal Models (LMM) を用いたエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームである。
LEGENTはリッチでインタラクティブな3D環境を提供し、コミュニケーション可能でアクション可能なエージェントをユーザフレンドリーなインターフェースと組み合わせている。
実験では、EGENT生成データに基づいて訓練された胚性視覚言語モデルが、エンボディタスクにおいてGPT-4Vを超える。
論文 参考訳(メタデータ) (2024-04-28T16:50:12Z) - LLM-Based Multi-Agent Systems for Software Engineering: Vision and the Road Ahead [14.834072370183106]
本稿では,複雑かつ多面的なソフトウェア工学の課題に対処する上で,マルチエージェント(LMA)システムの進化を考察する。
将来のソフトウェアエンジニアリングプラクティスにおけるLMAシステムの役割を調べることで、このビジョンペーパーは潜在的なアプリケーションと新たな課題を強調します。
論文 参考訳(メタデータ) (2024-04-07T07:05:40Z) - LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。
このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。
本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文 参考訳(メタデータ) (2024-04-03T23:57:34Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - A Survey on Context-Aware Multi-Agent Systems: Techniques, Challenges
and Future Directions [1.1458366773578277]
自律型エージェントに対する研究の関心が高まっている。
課題は、これらのエージェントが動的環境における不確実性を学び、推論し、ナビゲートできるようにすることである。
コンテキスト認識は、マルチエージェントシステムの強化において重要な要素として現れる。
論文 参考訳(メタデータ) (2024-02-03T00:27:22Z) - CSM-H-R: A Context Modeling Framework in Supporting Reasoning Automation for Interoperable Intelligent Systems and Privacy Protection [0.07499722271664144]
本稿では,大規模システムにおけるハイレベルコンテキスト推論(HLC)の自動化のための新しいフレームワークを提案する。
フレームワークの設計は、インテリジェントシステムとCSMを扱うコンポーネント間の共有と相互コンテキスト、階層、関係、遷移の管理をサポートする。
ベクトルおよび行列計算へのHLC推論に関するフレームワーク実験の実装は、次のレベルの自動化に到達する可能性を示す。
論文 参考訳(メタデータ) (2023-08-21T22:21:15Z) - Self-Adaptive Large Language Model (LLM)-Based Multiagent Systems [0.0]
本稿では,大規模言語モデル(LLM)をマルチエージェントシステムに統合することを提案する。
我々は、モニタリング、分析、計画、システム適応の実行において堅牢なサポートで有名であるMAPE-Kモデルに、我々の方法論を固定する。
論文 参考訳(メタデータ) (2023-07-12T14:26:46Z) - Retrieval-Enhanced Machine Learning [110.5237983180089]
本稿では,いくつかの既存モデルを含む汎用的な検索強化機械学習フレームワークについて述べる。
REMLは情報検索の慣例に挑戦し、最適化を含む中核領域における新たな進歩の機会を提示している。
REMLリサーチアジェンダは、情報アクセス研究の新しいスタイルの基礎を築き、機械学習と人工知能の進歩への道を開く。
論文 参考訳(メタデータ) (2022-05-02T21:42:45Z) - INODE: Building an End-to-End Data Exploration System in Practice
[Extended Vision] [30.411996388471817]
INODEはエンドツーエンドのデータ探索システムです。
私達は癌のバイオマーカーのReearch、研究および革新の方針の作成および天体物理学の分野の3つの重要な使用例でそれを実証します。
論文 参考訳(メタデータ) (2021-04-09T05:04:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。