論文の概要: User-in-the-loop Evaluation of Multimodal LLMs for Activity Assistance
- arxiv url: http://arxiv.org/abs/2408.03160v1
- Date: Sun, 4 Aug 2024 06:12:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 14:07:58.186875
- Title: User-in-the-loop Evaluation of Multimodal LLMs for Activity Assistance
- Title(参考訳): マルチモーダルLCMのユーザ・イン・ザ・ループ評価
- Authors: Mrinal Verghese, Brian Chen, Hamid Eghbalzadeh, Tushar Nagarajan, Ruta Desai,
- Abstract要約: 本研究では,Large Language Models (LLMs) を用いた現代多モーダル推論モデルの有用性について検討した。
このようなアシスタントは、(1)アシスタントのセンサーから関連する視覚履歴をエンコードできなければならない。
Socraticのアプローチは、オフラインとオンラインの両方でVCLMよりも優れています。
- 参考スコア(独自算出の注目度): 14.11032383241148
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Our research investigates the capability of modern multimodal reasoning models, powered by Large Language Models (LLMs), to facilitate vision-powered assistants for multi-step daily activities. Such assistants must be able to 1) encode relevant visual history from the assistant's sensors, e.g., camera, 2) forecast future actions for accomplishing the activity, and 3) replan based on the user in the loop. To evaluate the first two capabilities, grounding visual history and forecasting in short and long horizons, we conduct benchmarking of two prominent classes of multimodal LLM approaches -- Socratic Models and Vision Conditioned Language Models (VCLMs) on video-based action anticipation tasks using offline datasets. These offline benchmarks, however, do not allow us to close the loop with the user, which is essential to evaluate the replanning capabilities and measure successful activity completion in assistive scenarios. To that end, we conduct a first-of-its-kind user study, with 18 participants performing 3 different multi-step cooking activities while wearing an egocentric observation device called Aria and following assistance from multimodal LLMs. We find that the Socratic approach outperforms VCLMs in both offline and online settings. We further highlight how grounding long visual history, common in activity assistance, remains challenging in current models, especially for VCLMs, and demonstrate that offline metrics do not indicate online performance.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)をベースとした現代多モーダル推論モデルの有用性について検討した。
そのようなアシスタントは可能でなければならない
1)アシスタントのセンサー、例えばカメラからの視覚履歴をエンコードする。
2 活動を達成するための将来の行動を予測すること、及び
3) ループ内のユーザに基づくリプラン。
最初の2つの機能を評価するために、視覚履歴と予測を短くて長い地平線で評価するため、オフラインデータセットを用いたビデオベースのアクション予測タスクにおいて、ソクラティックモデルとビジョン条件付き言語モデル(VCLM)という、2つの著名なマルチモーダル LLM アプローチのクラスをベンチマークする。
しかし、これらのオフラインベンチマークでは、ユーザとのループをクローズすることができません。これは、リプラン機能を評価し、アシストシナリオでのアクティビティ完了を成功させるのに不可欠です。
そこで我々は,Ariaと呼ばれる自我中心の観察装置を装着し,マルチモーダルLCMの補助を受けながら,18人の参加者が3つの異なる多段階調理活動を行う,ファースト・オブ・イズ・ユーザー・スタディを行った。
Socraticのアプローチは、オフラインとオンラインの両方でVCLMよりも優れています。
特にVCLMでは、活動支援に共通する長い視覚的履歴が、現在のモデルでは依然として困難なままであり、オフラインメトリクスがオンラインのパフォーマンスを示すものではないことを実証しています。
関連論文リスト
- InsTALL: Context-aware Instructional Task Assistance with Multi-modal Large Language Models [11.913271486031201]
マルチモーダルな大規模言語モデル(InsTALL)を用いたコンテキスト認識型インストラクショナル・タスク・アシスタントを開発した。
InsTALLは、そのタスクに関連するユーザクエリに対して、リアルタイムで応答する。
InsTALLはマルチモーダルアクティビティ理解のためのサブタスクを提案する。
論文 参考訳(メタデータ) (2025-01-21T15:55:06Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - FLAME: Learning to Navigate with Multimodal LLM in Urban Environments [12.428873051106702]
大規模言語モデル(LLM)は視覚・言語ナビゲーション(VLN)タスクの可能性を実証している。
LLMは専門的なナビゲーションタスクに苦労し、専門的なVLNモデルと比較すると、最適以下の性能が得られる。
本稿では,都市VLNタスク用に設計された新しいマルチモーダルLLMエージェントとアーキテクチャであるFLAMEを紹介する。
論文 参考訳(メタデータ) (2024-08-20T17:57:46Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。