論文の概要: OmniActions: Predicting Digital Actions in Response to Real-World Multimodal Sensory Inputs with LLMs
- arxiv url: http://arxiv.org/abs/2405.03901v1
- Date: Mon, 6 May 2024 23:11:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 15:48:10.831964
- Title: OmniActions: Predicting Digital Actions in Response to Real-World Multimodal Sensory Inputs with LLMs
- Title(参考訳): OmniActions:LLMを用いた実世界のマルチモーダル感覚入力に対するデジタル行動予測
- Authors: Jiahao Nick Li, Yan Xu, Tovi Grossman, Stephanie Santosa, Michelle Li,
- Abstract要約: 未来の対話インタフェースは、ユーザのコンテキストに基づいて、デジタルアクションへの迅速なアクセスを提供する。
我々は、様々なタイプのマルチモーダル感覚入力に対応して行うことができるデジタル追従動作の全体的設計空間を作成した。
OmniActionsは大規模言語モデル(LLM)をベースとしたパイプラインで,マルチモーダルな知覚入力を処理し,対象情報に対する追従動作を予測する。
- 参考スコア(独自算出の注目度): 15.402143137362112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The progression to "Pervasive Augmented Reality" envisions easy access to multimodal information continuously. However, in many everyday scenarios, users are occupied physically, cognitively or socially. This may increase the friction to act upon the multimodal information that users encounter in the world. To reduce such friction, future interactive interfaces should intelligently provide quick access to digital actions based on users' context. To explore the range of possible digital actions, we conducted a diary study that required participants to capture and share the media that they intended to perform actions on (e.g., images or audio), along with their desired actions and other contextual information. Using this data, we generated a holistic design space of digital follow-up actions that could be performed in response to different types of multimodal sensory inputs. We then designed OmniActions, a pipeline powered by large language models (LLMs) that processes multimodal sensory inputs and predicts follow-up actions on the target information grounded in the derived design space. Using the empirical data collected in the diary study, we performed quantitative evaluations on three variations of LLM techniques (intent classification, in-context learning and finetuning) and identified the most effective technique for our task. Additionally, as an instantiation of the pipeline, we developed an interactive prototype and reported preliminary user feedback about how people perceive and react to the action predictions and its errors.
- Abstract(参考訳): Pervasive Augmented Reality" への進展は,マルチモーダル情報への継続的なアクセスを容易にすることを想定している。
しかし、多くの日常シナリオでは、ユーザーは物理的、認知的、社会的に占有される。
これにより、ユーザが世界で遭遇するマルチモーダル情報に作用する際の摩擦が増大する可能性がある。
このような摩擦を減らすために、将来の対話インタフェースは、ユーザのコンテキストに基づいて、デジタルアクションへの迅速なアクセスを提供する必要がある。
可能なデジタル行動の範囲を探索するため,我々は,参加者が望む行動やコンテキスト情報とともに(例えば,画像や音声など)メディアをキャプチャして共有することを要求した日記調査を行った。
このデータを用いて、様々な種類のマルチモーダル感覚入力に対応するデジタル追従動作の全体的設計空間を作成した。
OmniActionsは大規模言語モデル(LLM)をベースとしたパイプラインで、マルチモーダルな知覚入力を処理し、導出設計空間に根ざしたターゲット情報に対する追従動作を予測する。
筆者らは, 日記研究で収集した経験的データを用いて, LLM手法の3つのバリエーション(意図的分類, 文脈内学習, 微調整)を定量的に評価し, タスクに最も有効な手法を同定した。
さらに、パイプラインのインスタンス化として、インタラクティブなプロトタイプを開発し、人々がアクション予測とそのエラーをどのように認識し、反応するかについての予備的なユーザーフィードバックを報告した。
関連論文リスト
- A Comprehensive Methodological Survey of Human Activity Recognition Across Divers Data Modalities [2.916558661202724]
人間活動認識(HAR)システムは、人間の行動を理解し、それぞれの行動にラベルを割り当てることを目的としている。
HARは、RGB画像やビデオ、スケルトン、深度、赤外線、ポイントクラウド、イベントストリーム、オーディオ、アクセラレーション、レーダー信号など、さまざまなデータモダリティを利用することができる。
本稿は,2014年から2024年までのHARの最新の進歩に関する包括的調査である。
論文 参考訳(メタデータ) (2024-09-15T10:04:44Z) - Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。
本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。
大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文 参考訳(メタデータ) (2024-09-13T18:28:12Z) - Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - Cross-Domain HAR: Few Shot Transfer Learning for Human Activity
Recognition [0.2944538605197902]
本稿では,HARデータセットを有効な転送学習に利用するための経済的なアプローチを提案する。
本稿では,教師が学習する自己学習パラダイムに則って,新たな伝達学習フレームワークであるクロスドメインHARを紹介する。
本手法の有効性を,撮影活動認識のシナリオで実証する。
論文 参考訳(メタデータ) (2023-10-22T19:13:25Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。