論文の概要: SWITCH: Benchmarking Modeling and Handling of Tangible Interfaces in Long-horizon Embodied Scenarios
- arxiv url: http://arxiv.org/abs/2511.17649v1
- Date: Thu, 20 Nov 2025 09:52:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.330012
- Title: SWITCH: Benchmarking Modeling and Handling of Tangible Interfaces in Long-horizon Embodied Scenarios
- Title(参考訳): SWITCH:ロングホライゾン・エンボディードシナリオにおけるタンジブルインタフェースのベンチマークモデリングとハンドリング
- Authors: Jieru Lin, Zhiwei Yu, Börje F. Karlsson,
- Abstract要約: SWITCH (Semantic World Interface Tasks for Control and Handling) は、これらのギャップを調査するために反復リリースを通じて作成された、実施された、タスク駆動のベンチマークである。
タスク対応VQA、セマンティックUIグラウンディング、アクション生成、状態遷移予測、結果検証の5つの補完能力を評価する。
98個の実機とアプライアンスにまたがる351のタスクに対して、商用およびオープンなLMMMはシングルステップのインタラクションでも不整合性を示す。
- 参考スコア(独自算出の注目度): 7.983317067810301
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Autonomous intelligence requires not only perception and reasoning, but critically, effective interaction with the existing world and its infrastructure. Everyday environments are rich in tangible control interfaces (TCIs), e.g., light switches, appliance panels, and embedded GUIs, that demand commonsense and physics reasoning, but also causal prediction and outcome verification in time and space (e.g., delayed heating, remote lights). Moreover, failures here have potential safety implications, yet current benchmarks rarely test grounding, partial observability (video), or post-hoc verification in situated settings. We introduce SWITCH (Semantic World Interface Tasks for Control and Handling), an embodied, task-driven benchmark created through iterative releases to probe these gaps. Its first iteration, SWITCH-Basic, evaluates five complementary abilities:task-aware VQA, semantic UI grounding, action generation, state-transition prediction, and result verification, under egocentric RGB video input and device diversity. Across 351 tasks spanning 98 real devices and appliances, commercial and open LMMMs exhibit inconsistent performance even on single-step interactions, often over-relying on textual cues and under-using visual or video evidence (and high aggregate scores can mask such failures). SWITCH provides data, code, and held-out splits to enable reproducible evaluation and community contributions toward more challenging future iterations of the benchmark and the creation of training datasets. Benchmark resources are available at: https://github.com/BAAI-Agents/SWITCH.
- Abstract(参考訳): 自律的な知性は、知覚と推論だけでなく、既存の世界とそのインフラとの効果的な相互作用を必要とします。
毎日の環境は、有形制御インターフェース(TCI)、例えば光スイッチ、アプライアンスパネル、組込みGUIに富み、コモンセンスと物理推論を必要とするが、時間と空間における因果予測と結果検証(例えば、遅延加熱、リモートライト)も必要である。
さらに、ここでの障害は潜在的に安全性に影響を及ぼすが、現在のベンチマークでは、グラウンドテストや部分的可観測性(ビデオ)、位置決め設定でのポストホック検証などはめったにテストされない。
SWITCH(Semantic World Interface Tasks for Control and Handling)は,これらのギャップを探索するために反復的なリリースを通じて作成される,具体化されたタスク駆動ベンチマークである。
最初のイテレーションであるSWITCH-Basicは、エゴセントリックなRGBビデオ入力とデバイスの多様性の下で、タスク対応VQA、セマンティックUIグラウンドニング、アクション生成、状態遷移予測、結果検証の5つの補完能力を評価する。
98個の実機とアプライアンスにまたがる351タスクにまたがって、商業的およびオープンなLMMMは、単一ステップのインタラクションでも一貫性のないパフォーマンスを示し、しばしばテキストのキューや、未使用の視覚的またはビデオ的エビデンス(高集合スコアはそのような失敗を隠蔽することができる)に過度に頼っている。
SWITCHは、再現可能な評価とコミュニティのコントリビューションを可能にするために、データ、コード、ホールドアウトの分割を提供する。
ベンチマークリソースは、https://github.com/BAAI-Agents/SWITCHで利用可能である。
関連論文リスト
- OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding [50.72259772580637]
エージェントの観点から,オンライン時空間理解を評価するためのベンチマークOST-Benchを紹介する。
効率的なデータ収集パイプライン上に構築されたOST-Benchは、ScanNet、Matterport3D、ARKitScenesから収集された1.4kのシーンと10kの質問応答ペアで構成されている。
複雑な空間的推論要求と長期記憶検索要求の両方が、2つの別々の軸に沿ってモデル性能を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2025-07-10T17:56:07Z) - ReGUIDE: Data Efficient GUI Grounding via Spatial Reasoning and Search [53.40810298627443]
ReGUIDEは、MLLMが自己生成的推論と空間認識的批判を通じてデータを効率的に学習することを可能にするWebグラウンドのためのフレームワークである。
実験により、ReGUIDEは複数のベンチマークでWebグラウンド性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T08:36:18Z) - Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis [57.371814877372515]
グラフィカルユーザインタフェース(GUI)の基盤は、コンピュータ利用エージェント開発において依然として重要なボトルネックとなっている。
多様なタスクタイプにまたがる564の細かな注釈付きサンプルからなる総合ベンチマークであるOSWorld-Gを紹介する。
我々は、400万のサンプルを含む、最大のコンピュータ利用基盤データセットであるJediを合成してリリースする。
論文 参考訳(メタデータ) (2025-05-19T15:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。