論文の概要: Benchmarking Egocentric Multimodal Goal Inference for Assistive Wearable Agents
- arxiv url: http://arxiv.org/abs/2510.22443v1
- Date: Sat, 25 Oct 2025 21:54:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.199673
- Title: Benchmarking Egocentric Multimodal Goal Inference for Assistive Wearable Agents
- Title(参考訳): 補助ウェアラブルエージェントのためのエゴセントリックマルチモーダルゴール推論のベンチマーク
- Authors: Vijay Veerabadran, Fanyi Xiao, Nitin Kamra, Pedro Matias, Joy Chen, Caley Drooff, Brett D Roads, Riley Williams, Ethan Henderson, Xuanyi Zhao, Kevin Carlberg, Joseph Tighe, Karl Ridgeway,
- Abstract要約: この研究は、視覚言語モデル(VLM)を用いてこの問題の解決の進捗を計測する強力なベンチマークであるWAGIBenchの作成に焦点を当てている。
3,477の録音から348人の参加者から29時間のマルチモーダルデータを収集し,視覚的,音声的,デジタル的,テクスチャ的観察を伴い,地道的な目標を掲げた。
本研究は, 人体性能がモデル性能を上回り, 93%のマルチチョイス精度を達成し, 最高性能VLMの84%と比較した。
- 参考スコア(独自算出の注目度): 12.083458582842384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been a surge of interest in assistive wearable agents: agents embodied in wearable form factors (e.g., smart glasses) who take assistive actions toward a user's goal/query (e.g. "Where did I leave my keys?"). In this work, we consider the important complementary problem of inferring that goal from multi-modal contextual observations. Solving this "goal inference" problem holds the promise of eliminating the effort needed to interact with such an agent. This work focuses on creating WAGIBench, a strong benchmark to measure progress in solving this problem using vision-language models (VLMs). Given the limited prior work in this area, we collected a novel dataset comprising 29 hours of multimodal data from 348 participants across 3,477 recordings, featuring ground-truth goals alongside accompanying visual, audio, digital, and longitudinal contextual observations. We validate that human performance exceeds model performance, achieving 93% multiple-choice accuracy compared with 84% for the best-performing VLM. Generative benchmark results that evaluate several families of modern vision-language models show that larger models perform significantly better on the task, yet remain far from practical usefulness, as they produce relevant goals only 55% of the time. Through a modality ablation, we show that models benefit from extra information in relevant modalities with minimal performance degradation from irrelevant modalities.
- Abstract(参考訳): ウェアラブルのフォームファクター(例えばスマートグラス)を具現化したエージェントは、ユーザーのゴール/クエリーに対して補助的なアクションをとる(例えば、キーはどこに置き忘れたのか)。
本研究では,その目的をマルチモーダルな文脈観測から推定する重要な相補的問題を考察する。
この「ゴール推論」問題を解くことは、そのようなエージェントと対話するのに必要な労力を排除するという約束を果たす。
この研究は、視覚言語モデル(VLM)を用いてこの問題の解決の進捗を計測する強力なベンチマークであるWAGIBenchの作成に焦点を当てている。
3,477件の録音から348件の参加者から29時間のマルチモーダルデータを収集した。
本研究は, 人体性能がモデル性能を上回り, 93%のマルチチョイス精度を達成し, 最高性能VLMの84%と比較した。
現代の視覚言語モデルのいくつかのファミリーを評価した生成的ベンチマークの結果は、より大きなモデルはタスクにおいて著しく優れているが、関連する目標の55%しか達成できないため、実用性には程遠いことを示している。
モダリティアブレーションにより、モデルが無関係なモダリティから性能劣化を最小限に抑えながら、関連するモダリティの余分な情報から恩恵を受けることを示す。
関連論文リスト
- Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models [59.0256377330646]
Lensは3.4Kの現代画像と8つのタスクと12の日次シナリオをカバーする60K以上の人間による質問のベンチマークである。
このデータセットは本質的に、基本的な知覚から構成的推論に至るまで、画像不変のプロンプトを処理するためのMLLMの評価をサポートする。
我々は,Qwen2.5-VL-72B,InternVL3-78B,GPT-4oおよび2つの推論モデルQVQ-72B-previewとKim-VLなどの15以上のフロンティアMLLMを評価する。
論文 参考訳(メタデータ) (2025-05-21T15:06:59Z) - ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models [37.54872845368151]
視覚的推論によってのみ解決可能な合成データセットを用いてケーススタディを行う。
次に、1,162人の専門家が注釈を付けた質問を含む新しいチャート質問回答(QA)ベンチマークであるChartMuseumを紹介します。
人間は93%の精度を達成しているが、最高のパフォーマンスモデルであるGemini-2.5-Proは63.0%しか達成できず、主要なオープンソースであるLVLM Qwen2.5-VL-72B-Instructは38.5%しか達成していない。
論文 参考訳(メタデータ) (2025-05-19T17:59:27Z) - AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs [70.4578433679737]
我々は9つの細工されたタスクにまたがる600万のサンプルからなるAudio-Visual Trustworthiness Assessment Benchmark (AVTrustBench)を紹介する。
ベンチマークを用いて、13の最先端AVLLMを広範囲に評価した。
その結果、既存のモデルのほとんどは、人間のような理解を達成できないことが判明した。
論文 参考訳(メタデータ) (2025-01-03T23:03:24Z) - Beyond Visual Understanding: Introducing PARROT-360V for Vision Language Model Benchmarking [0.12369742273401668]
2487の難解な視覚パズルを特徴とする新しい総合ベンチマークであるPARROT-360Vベンチマークを紹介する。
GPT-4o, Claude-3.5-Sonnet, Gemini-1.5-Pro の先行モデルの評価を行った。
最新モデルのスコアはベンチマークで28~56パーセンテージで、一般的なベンチマークでのパフォーマンスよりも大幅に低かった。
論文 参考訳(メタデータ) (2024-11-20T01:09:21Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。