論文の概要: Building Egocentric Procedural AI Assistant: Methods, Benchmarks, and Challenges
- arxiv url: http://arxiv.org/abs/2511.13261v1
- Date: Mon, 17 Nov 2025 11:21:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.160679
- Title: Building Egocentric Procedural AI Assistant: Methods, Benchmarks, and Challenges
- Title(参考訳): エゴセントリックな手続き型AIアシスタントの構築 - 方法、ベンチマーク、課題
- Authors: Junlong Li, Huaiyuan Xu, Sijie Cheng, Kejun Wu, Kim-Hui Yap, Lap-Pui Chau, Yi Wang,
- Abstract要約: 本稿では,ego-centric Procedural AI Assistant(EgoProceAssist)の概念を紹介した。
これらのタスクは、新しい分類学におけるEgoProceAssistの本質的な機能を定義する。
提案するEgoProceAssistと既存のVLMベースのAIアシスタントとのギャップを明らかにするため,新しい実験を導入し,代表的VLMベースの手法の包括的評価を行う。
- 参考スコア(独自算出の注目度): 36.75938945302328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driven by recent advances in vision language models (VLMs) and egocentric perception research, we introduce the concept of an egocentric procedural AI assistant (EgoProceAssist) tailored to step-by-step support daily procedural tasks in a first-person view. In this work, we start by identifying three core tasks: egocentric procedural error detection, egocentric procedural learning, and egocentric procedural question answering. These tasks define the essential functions of EgoProceAssist within a new taxonomy. Specifically, our work encompasses a comprehensive review of current techniques, relevant datasets, and evaluation metrics across these three core areas. To clarify the gap between the proposed EgoProceAssist and existing VLM-based AI assistants, we introduce novel experiments and provide a comprehensive evaluation of representative VLM-based methods. Based on these findings and our technical analysis, we discuss the challenges ahead and suggest future research directions. Furthermore, an exhaustive list of this study is publicly available in an active repository that continuously collects the latest work: https://github.com/z1oong/Building-Egocentric-Procedural-AI-Assistant
- Abstract(参考訳): 近年の視覚言語モデル(VLM)と自我中心の知覚研究の進歩により、私たちは、一人称視点で日々の手続きタスクをステップバイステップでサポートするように調整された、自我中心の手続き型AIアシスタント(EgoProceAssist)の概念を紹介した。
本研究は,エゴセントリックな手続き的誤り検出,エゴセントリックな手続き的学習,そしてエゴセントリックな手続き的質問応答という,3つの中核的タスクを同定することから始める。
これらのタスクは、新しい分類学におけるEgoProceAssistの本質的な機能を定義する。
具体的には、これらの3つの中核領域にわたる現在の技術、関連するデータセット、評価指標の包括的なレビューを含む。
提案するEgoProceAssistと既存のVLMベースのAIアシスタントとのギャップを明らかにするため,新しい実験を導入し,代表的VLMベースの手法の包括的評価を行う。
これらの知見と技術的分析に基づいて,今後の課題を議論し,今後の研究方向性を提案する。
さらに、この研究の包括的なリストは、最新の研究を継続的に収集するアクティブリポジトリで公開されている。
関連論文リスト
- A Survey on Code Generation with LLM-based Agents [61.474191493322415]
大規模言語モデル(LLM)を利用したコード生成エージェントは、ソフトウェア開発パラダイムに革命をもたらしている。
LLMは3つのコア特徴によって特徴づけられる。
本稿では,LLMに基づくコード生成エージェントの分野を体系的に調査する。
論文 参考訳(メタデータ) (2025-07-31T18:17:36Z) - Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding [69.96199605596138]
現在のMLLMは、主に第三者(外見中心)のビジョンに焦点を当てており、一対一(自我中心)の動画のユニークな側面を見下ろしている。
本研究では,エゴ中心領域とエゴ中心領域のマッピングを学習し,エゴ中心領域の理解を高めることを提案する。
Ego-ExoClipは1.1M同期のEgo-Exoクリップテキストペアからなる事前学習データセットである。
論文 参考訳(メタデータ) (2025-03-12T08:10:33Z) - Memento No More: Coaching AI Agents to Master Multiple Tasks via Hints Internalization [56.674356045200696]
本稿では,複雑なメモシステムや事前の高品質な実演データを必要としない,複数のタスクに対する知識とスキルを取り入れたAIエージェントの訓練手法を提案する。
このアプローチでは,エージェントが新たな経験を収集し,ヒントの形で人間から補正フィードバックを受け取り,このフィードバックを重みに組み込む,反復的なプロセスを採用している。
Llama-3をベースとしたエージェントに実装することで,数ラウンドのフィードバックの後,高度なモデルGPT-4oとDeepSeek-V3をタスクセットで性能向上させる手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-02-03T17:45:46Z) - The Foundations of Computational Management: A Systematic Approach to
Task Automation for the Integration of Artificial Intelligence into Existing
Workflows [55.2480439325792]
本稿では,タスク自動化の体系的アプローチである計算管理を紹介する。
この記事では、ワークフロー内でAIを実装するプロセスを開始するための、ステップバイステップの手順を3つ紹介する。
論文 参考訳(メタデータ) (2024-02-07T01:45:14Z) - A Systematic Literature Review on Explainability for Machine/Deep Learning-based Software Engineering Research [23.273934717819795]
本稿では,ソフトウェア工学の文脈におけるAIモデルの説明可能性の向上を目的とした,体系的な文献レビューを行う。
我々は,XAI技術がこれまで成功してきたSEタスク,(2)異なるXAI手法の分類と分析,(3)既存の評価手法を考察することを目的としている。
論文 参考訳(メタデータ) (2024-01-26T03:20:40Z) - Assessing the State of Self-Supervised Human Activity Recognition using
Wearables [6.777825307593778]
ウェアラブル型ヒューマンアクティビティ認識(HAR)分野における自己指導型学習
自己組織化されたメソッドは、例えば、ドメイン適応やセンサー位置、アクティビティ間の転送など、新しいアプリケーションドメインのホストを可能にする。
論文 参考訳(メタデータ) (2022-02-22T02:21:50Z) - Core Challenges in Embodied Vision-Language Planning [9.190245973578698]
本稿では,エボディード・ビジョン・ランゲージ・プランニング(Embodied Vision-Language Planning)タスクについて論じる。
我々はこれらのタスクを統一する分類法を提案し、新しいアルゴリズムアプローチと現在のアルゴリズムアプローチの分析と比較を行う。
我々は,モデル一般化性を実現し,実世界の展開を促進するタスク構築を提唱する。
論文 参考訳(メタデータ) (2021-06-26T05:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。