論文の概要: VISTA: A Generative Egocentric Video Framework for Daily Assistance
- arxiv url: http://arxiv.org/abs/2605.10579v1
- Date: Mon, 11 May 2026 13:50:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.862631
- Title: VISTA: A Generative Egocentric Video Framework for Daily Assistance
- Title(参考訳): VISTA: デイリーアシストのためのジェネレーティブエゴシックビデオフレームワーク
- Authors: Yu-Hsiang Liu, Yu-Chien Tang, An-Zi Yen,
- Abstract要約: 本稿では,AIエージェントのトレーニングおよび評価データとして,高忠実度エゴセントリックビデオを生成するビデオ合成システムであるVISTAを紹介する。
VISTAは5ステップのスクリプト生成パイプラインを使用し、因果リバース推論を用いて、多様で論理的に基礎付けられた介入モードを生成する。
これらのシナリオは、リアクティブとアクティブという、エージェントの自律性の2つのレベルにまたがる。
- 参考スコア(独自算出の注目度): 5.919102792488079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training AI agents to proactively assist humans in daily activities, from routine household tasks to urgent safety situations, requires large-scale visual data. However, capturing such scenarios in the real world is often difficult, costly, or unsafe, and physics-based simulators lack the visual fidelity needed to transfer learned behaviors to real settings. Therefore, we introduce VISTA, a video synthesis system that produces high-fidelity egocentric videos as training and evaluation data for AI agents. VISTA employs a 5-step script generation pipeline with causal reverse reasoning to create diverse, logically grounded intervention modes. These scenarios span two levels of agent autonomy: reactive and proactive. In reactive modes, the user explicitly asks the agent for help. In proactive modes, the agent offers help without receiving a direct request. We further divide proactive modes into explicit and implicit types. In explicit proactive scenarios, the user is aware of needing help but does not directly address the agent. In implicit proactive scenarios, the agent intervenes before the user even realizes that help is needed. VISTA allows users to customize and refine scenarios to generate video benchmarks for daily tasks, offering a scalable and controllable alternative to real-world data collection for training and evaluating AI agents in realistic environments.
- Abstract(参考訳): 日常的な家事から緊急の安全状況まで、人間の日常生活を積極的に支援するAIエージェントの訓練には、大規模な視覚的データが必要である。
しかし、そのようなシナリオを現実の世界で捉えることは、しばしば困難、コストがかかり、安全ではない。
そこで我々は,AIエージェントのトレーニングおよび評価データとして,高忠実度自我中心のビデオを生成するビデオ合成システムであるVISTAを紹介する。
VISTAは5ステップのスクリプト生成パイプラインを使用し、因果リバース推論を用いて、多様で論理的に基礎付けられた介入モードを生成する。
これらのシナリオは、リアクティブとアクティブという、エージェントの自律性の2つのレベルにまたがる。
リアクティブモードでは、ユーザは明示的にエージェントに助けを求める。
プロアクティブモードでは、エージェントは直接要求を受けずにヘルプを提供する。
さらに、プロアクティブモードを明示型と暗黙型に分割する。
明示的なプロアクティブシナリオでは、ユーザはヘルプが必要であることに気付いていますが、エージェントに直接対処しません。
暗黙のプロアクティブシナリオでは、エージェントはユーザーがヘルプが必要であることに気付く前に介入する。
VISTAを使用すると、ユーザーはシナリオをカスタマイズして洗練して、日々のタスクのためのビデオベンチマークを生成することができ、現実的な環境でAIエージェントをトレーニングし評価するための現実世界のデータ収集の、スケーラブルで制御可能な代替手段を提供する。
関連論文リスト
- SAGE: Scalable Agentic 3D Scene Generation for Embodied AI [67.43935343696982]
既存のシーン生成システムは、しばしばルールベースまたはタスク固有のパイプラインに依存し、アーティファクトと物理的に無効なシーンを生成する。
本稿では,ユーザが特定した具体的タスクを与えられたエージェントフレームワークであるSAGEについて,その意図を理解し,大規模にシミュレーション可能な環境を自動的に生成する。
得られた環境は現実的で多様性があり、政策訓練のための現代的なシミュレーターに直接デプロイできる。
論文 参考訳(メタデータ) (2026-02-10T18:59:55Z) - What's the next frontier for Data-centric AI? Data Savvy Agents [71.76058707995398]
我々は、エージェントシステムの設計において、データに精通する能力が最優先すべきであると主張している。
本稿では,このビジョンを実現するための4つの重要な機能を提案する。プロアクティブデータ取得,ソフシフィケートデータ処理,インタラクティブテストデータ合成,連続的適応。
論文 参考訳(メタデータ) (2025-11-02T17:09:29Z) - Dyna-Mind: Learning to Simulate from Experience for Better AI Agents [62.21219817256246]
私たちは、現在のAIエージェントは、行動する前に、別の未来を精神的にシミュレートする能力である「悪意ある試行錯誤」を必要としていると論じます。
我々は、(V)LMエージェントに対して、そのようなシミュレーションを推論に組み込むように明示的に教える2段階のトレーニングフレームワークであるDyna-Mindを紹介した。
論文 参考訳(メタデータ) (2025-10-10T17:30:18Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - AirVista-II: An Agentic System for Embodied UAVs Toward Dynamic Scene Semantic Understanding [16.405658563770757]
AirVista-IIは、UAVのエンドツーエンドのエージェントシステムである。
システムはエージェントベースのタスク識別とスケジューリング、マルチモーダル認識機構、および区別された抽出戦略を統合する。
論文 参考訳(メタデータ) (2025-04-13T14:06:50Z) - Reasoning in visual navigation of end-to-end trained agents: a dynamical systems approach [23.52028824411467]
本研究では,物理ロボットを用いた実環境におけるヌンペプソデスのナビゲーションエピソードに関する大規模実験を行った。
エンドツーエンドのトレーニングから生じる推論のタイプを分析します。
本稿では,エージェントが学習した値関数が長期計画に関連があることをポストホック分析で示す。
論文 参考訳(メタデータ) (2025-03-11T11:16:47Z) - YETI (YET to Intervene) Proactive Interventions by Multimodal AI Agents in Augmented Reality Tasks [16.443149180969776]
Augmented Reality (AR)ヘッドウェアは、日々の手続き的なタスクを解く際のユーザエクスペリエンスを一意に改善することができる。
このようなAR機能は、AIエージェントがユーザーのマルチモーダル機能に関連するアクションを見て耳を傾けるのに役立つ。
一方、AIエージェントのプロアクティビティは、人間が観察されたタスクのミスを検出し、修正するのに役立つ。
論文 参考訳(メタデータ) (2025-01-16T08:06:02Z) - Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues [54.81155589931697]
協調インスタンスオブジェクトナビゲーション(CoIN)は、エージェントがターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定である。
未認識者に対するエージェント・ユーザインタラクション(AIUTA)の新たな学習自由化手法を提案する。
まず、オブジェクト検出時に、セルフクエチオナーモデルがエージェント内で自己対話を開始し、完全かつ正確な観察記述を得る。
インタラクショントリガーモジュールは、人間に質問するか、継続するか、ナビゲーションを停止するかを決定する。
論文 参考訳(メタデータ) (2024-12-02T08:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。