論文の概要: On the Strengths and Weaknesses of Data for Open-set Embodied Assistance
- arxiv url: http://arxiv.org/abs/2603.04819v1
- Date: Thu, 05 Mar 2026 05:10:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.082873
- Title: On the Strengths and Weaknesses of Data for Open-set Embodied Assistance
- Title(参考訳): オープンセット型身体支援のためのデータの強度と弱さについて
- Authors: Pradyumna Tambwekar, Andrew Silva, Deepak Gopinath, Jonathan DeCastro, Xiongyi Cui, Guy Rosman,
- Abstract要約: 身体的基礎モデルは、ロボット工学や自律運転のような現実世界の領域でますますパフォーマンスが向上している。
双方向のインタラクティブなデータ生成は、データ効率のよい一般化機能を提供するための有望な道を提供する。
- 参考スコア(独自算出の注目度): 7.496948814618759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied foundation models are increasingly performant in real-world domains such as robotics or autonomous driving. These models are often deployed in interactive or assistive settings, where it is important that these assistive models generalize to new users and new tasks. Diverse interactive data generation offers a promising avenue for providing data-efficient generalization capabilities for interactive embodied foundation models. In this paper, we investigate the generalization capabilities of a multimodal foundation model fine-tuned on diverse interactive assistance data in a synthetic domain. We explore generalization along two axes: a) assistance with unseen categories of user behavior and b) providing guidance in new configurations not encountered during training. We study a broad capability called \textbf{Open-Set Corrective Assistance}, in which the model needs to inspect lengthy user behavior and provide assistance through either corrective actions or language-based feedback. This task remains unsolved in prior work, which typically assumes closed corrective categories or relies on external planners, making it a challenging testbed for evaluating the limits of assistive data. To support this task, we generate synthetic assistive datasets in Overcooked and fine-tune a LLaMA-based model to evaluate generalization to novel tasks and user behaviors. Our approach provides key insights into the nature of assistive datasets required to enable open-set assistive intelligence. In particular, we show that performant models benefit from datasets that cover different aspects of assistance, including multimodal grounding, defect inference, and exposure to diverse scenarios.
- Abstract(参考訳): 身体的基礎モデルは、ロボット工学や自律運転のような現実世界の領域でますますパフォーマンスが向上している。
これらのモデルは、しばしば対話的または補助的な設定でデプロイされ、これらの補助モデルが新しいユーザや新しいタスクに一般化されることが重要である。
双方向のインタラクティブなデータ生成は、インタラクティブなエボダイド基礎モデルのためのデータ効率の高い一般化機能を提供するための有望な道を提供する。
本稿では,合成ドメインにおける多様な対話型補助データに基づいて微調整された多モード基礎モデルの一般化能力について検討する。
2つの軸に沿った一般化を探索する。
a) ユーザ行動の見当たらないカテゴリーと支援
ロ 訓練中に遭遇しない新しい構成の指導を提供すること。
そこで我々は,モデルが長いユーザ動作を検査し,修正行動や言語に基づくフィードバックを通じて支援を行う必要がある,「textbf{Open-Set Corrective Assistance」と呼ばれる幅広い機能について検討する。
このタスクは、通常、クローズドな修正カテゴリを前提とするか、外部のプランナーに依存している、以前の作業では未解決のままである。
このタスクを支援するために,新しいタスクやユーザ行動への一般化を評価するために,LLaMAモデルを用いたオーバークッキングおよび微調整による合成補助データセットを生成する。
我々のアプローチは、オープンセットのアシストインテリジェンスを実現するために必要なアシストデータセットの性質に関する重要な洞察を提供する。
特に、マルチモーダルグラウンドニング、欠陥推論、さまざまなシナリオへの露出など、さまざまな支援の側面をカバーするデータセットから、パフォーマンスモデルが恩恵を受けることを示す。
関連論文リスト
- Using Large Language Models to Detect Socially Shared Regulation of Collaborative Learning [15.567266973412815]
予測モデルを拡張し、埋め込み型アプローチを用いて、社会的に共有された学習行動の制御を自動的に検出する。
我々は,大規模言語モデル(LLM)を要約ツールとして活用し,システムログに整合した学生対話のタスク認識表現を生成する。
その結果, テキストのみの埋め込みは, 実行やグループダイナミクスに関連するSSRLの挙動の検出において, より強力な性能が得られることがわかった。
論文 参考訳(メタデータ) (2026-01-08T00:30:46Z) - Structurally Refined Graph Transformer for Multimodal Recommendation [13.296555757708298]
構造的に最適化されたマルチモーダルレコメンデーションモデルSRGFormerを提案する。
モデルへのより良い統合のためにトランスフォーマーを変更することで、ユーザの全体的な行動パターンをキャプチャします。
そして,マルチモーダル情報をハイパーグラフ構造に埋め込み,ユーザとアイテム間の局所構造を学習する。
論文 参考訳(メタデータ) (2025-11-01T15:18:00Z) - A Survey on Generative Recommendation: Data, Model, and Tasks [55.36322811257545]
ジェネレーティブ・レコメンデーションは、差別的なスコアではなく、世代としてのレコメンデーションを再認識する。
この調査は、データ、モデル、タスク次元にまたがる統合された三部構成のフレームワークを通じて包括的な調査を提供する。
世界知識の統合、自然言語理解、推論能力、スケーリング法則、創造的生成の5つの主要な利点を特定します。
論文 参考訳(メタデータ) (2025-10-31T04:02:58Z) - CRMWeaver: Building Powerful Business Agent via Agentic RL and Shared Memories [15.512057716487517]
ビジネスエージェントを複雑な環境で強化する新しいアプローチであるCRMWeaverを提案する。
我々は、学習中に合成データ生成とRLに基づくパラダイムを採用し、複雑なデータを扱うモデルの能力を大幅に改善する。
CRMArena-Proデータセットに対する我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2025-10-29T09:47:40Z) - Adapting Vision-Language Models Without Labels: A Comprehensive Survey [74.17944178027015]
VLM(Vision-Language Models)は、幅広いタスクにまたがる顕著な一般化機能を示す。
近年,ラベル付きデータに依存しない教師なし適応手法に注目が集まっている。
本稿では,未ラベルの視覚データの可用性と性質に基づく分類法を提案し,既存のアプローチを4つの重要なパラダイムに分類する。
論文 参考訳(メタデータ) (2025-08-07T16:27:37Z) - Anomaly Detection and Generation with Diffusion Models: A Survey [51.61574868316922]
異常検出(AD)は、サイバーセキュリティ、金融、医療、工業製造など、さまざまな分野において重要な役割を担っている。
近年のディープラーニング,特に拡散モデル(DM)の進歩は,大きな関心を集めている。
この調査は、研究者や実践者が様々なアプリケーションにまたがる革新的なADソリューションにDMを利用することをガイドすることを目的としている。
論文 参考訳(メタデータ) (2025-06-11T03:29:18Z) - Personality Analysis from Online Short Video Platforms with Multi-domain Adaptation [16.555668668581237]
オンラインショートビデオのパーソナリティ分析は、パーソナライズされたレコメンデーションシステム、感情分析、人間とコンピュータのインタラクションに応用されているため、注目を集めている。
ビッグファイブ・パーソナリティ・フレームワークに基づくアンケートのような従来の評価手法は、自己報告バイアスによって制限されており、大規模な分析やリアルタイム分析では実用的ではない。
マルチモーダル・パーソナリティ分析フレームワークを提案し,複数のモーダルから特徴を同期・統合することで課題に対処する。
論文 参考訳(メタデータ) (2024-10-26T03:29:32Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - LAMBDA: A Large Model Based Data Agent [7.240586338370509]
本稿では,LArge Model Based Data Agent (LAMBDA)を紹介する。
LAMBDAは、データ駆動アプリケーションにおけるデータ分析の課題に対処するように設計されている。
それは、人間と人工知能をシームレスに統合することで、データ分析パラダイムを強化する可能性がある。
論文 参考訳(メタデータ) (2024-07-24T06:26:36Z) - HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。
モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文 参考訳(メタデータ) (2024-07-03T18:00:48Z) - Wiki-TabNER: Integrating Named Entity Recognition into Wikipedia Tables [18.330753799139845]
新しいデータセットであるWiki-TabNERは、既存のベンチマークデータセットを強化するために提案されている。
本稿では,Wiki-TabNERデータセットとラベリングプロセスの特徴について述べる。
さらに,内部テーブルNERタスク上での新しい大規模言語モデルを評価するためのプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:22:07Z) - Foundation Models for Decision Making: Problems, Methods, and
Opportunities [124.79381732197649]
大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。
ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。
基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
論文 参考訳(メタデータ) (2023-03-07T18:44:07Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Cross-Domain Generalization and Knowledge Transfer in Transformers
Trained on Legal Data [0.0]
異なる型システムで注釈付けされたデータセット間で知識を伝達する事前学習言語モデルの解析を行う。
文がケース決定で果たす修辞的役割の予測は、AI & Lawにおいて重要かつしばしば研究される課題である。
論文 参考訳(メタデータ) (2021-12-15T04:23:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。