論文の概要: BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2602.08392v1
- Date: Mon, 09 Feb 2026 08:47:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.132819
- Title: BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models
- Title(参考訳): BiManiBench: マルチモーダル大言語モデルの双方向コーディネーション評価のための階層ベンチマーク
- Authors: Xin Wu, Zhixuan Liang, Yue Ma, Mengkang Hu, Zhiyuan Qin, Xiu Li,
- Abstract要約: MLLM(Multi Large Language Models)を評価するベンチマークであるBiManiBenchを紹介した。
本フレームワークは,腕の到達性や運動的制約など,独特な両面的課題を分離する。
30以上の最先端モデルの解析により、高度推論能力にもかかわらず、MLLMはデュアルアームの空間接地と制御に苦しむことが明らかとなった。
- 参考スコア(独自算出の注目度): 30.38546017617527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have significantly advanced embodied AI, and using them to benchmark robotic intelligence has become a pivotal trend. However, existing frameworks remain predominantly confined to single-arm manipulation, failing to capture the spatio-temporal coordination required for bimanual tasks like lifting a heavy pot. To address this, we introduce BiManiBench, a hierarchical benchmark evaluating MLLMs across three tiers: fundamental spatial reasoning, high-level action planning, and low-level end-effector control. Our framework isolates unique bimanual challenges, such as arm reachability and kinematic constraints, thereby distinguishing perceptual hallucinations from planning failures. Analysis of over 30 state-of-the-art models reveals that despite high-level reasoning proficiency, MLLMs struggle with dual-arm spatial grounding and control, frequently resulting in mutual interference and sequencing errors. These findings suggest the current paradigm lacks a deep understanding of mutual kinematic constraints, highlighting the need for future research to focus on inter-arm collision-avoidance and fine-grained temporal sequencing.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、ロボットインテリジェンスをベンチマークするためにAIを大いに進歩させてきた。
しかし、既存のフレームワークはシングルアーム操作に限られており、重いポットを持ち上げるなどのバイマニュアルタスクに必要な時空間調整を捉えていない。
そこで本稿では,基本的な空間推論,高レベルのアクション計画,低レベルのエンドエフェクタ制御という,MLLMを3層にわたって評価する階層的ベンチマークであるBiManiBenchを紹介する。
本フレームワークは,腕の届きやすさや運動的制約などの独特な両面的課題を分離し,視覚の幻覚を障害計画と区別する。
30以上の最先端モデルの解析により、MLLMは高いレベルの推論能力にもかかわらず、デュアルアームの空間接地と制御に苦労し、相互干渉やシークエンシングエラーが頻繁に発生することが明らかになった。
これらの知見は、現在のパラダイムには相互のキネマティックな制約の深い理解が欠如していることを示し、アーム間衝突回避と微粒な時間的シークエンシングに焦点を合わせるための将来の研究の必要性を強調している。
関連論文リスト
- Benchmarking neural surrogates on realistic spatiotemporal multiphysics flows [18.240532888032394]
我々は、困難でアプリケーション駆動のリアクティブフローでニューラルネットワークサロゲートをテストするために設計された厳格なベンチマークフレームワークであるREALM(Realistic AI Learning for Multiphysics)を提案する。
我々は、スペクトル演算子、畳み込みモデル、トランスフォーマー、ポイントワイド演算子、グラフ/メッシュネットワークを含む、12以上の代表代理モデルファミリをベンチマークする。
i)次元性、剛性、メッシュの不規則性によって共同で管理されるスケーリング障壁により、ロールアウトエラーが急速に増加すること、(ii)パラメータカウントよりもアーキテクチャ上の帰納バイアスによって主に制御されるパフォーマンス、(iii)精度の指標と物理的にの間にある永続的なギャップ、の3つの頑健な傾向を識別する。
論文 参考訳(メタデータ) (2025-12-21T05:04:13Z) - Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents [52.14392337070763]
CFG-Benchは、きめ細かな動作インテリジェンスを体系的に評価する新しいベンチマークである。
CFG-Benchは、1,368のキュレートされたビデオと19,562の3つのモダリティからなる質問応答ペアからなる。
CFG-Benchに関する包括的評価から,MLLMの先導者は,物理的相互作用の詳細な指示を生成するのに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-11-24T02:02:29Z) - When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models [75.16145284285456]
我々は,White-box設定とBlack-box設定の両方の下で,組込みVLAモデルのマルチモーダル対向ロバスト性に関する総合的研究であるVLA-Foolを紹介する。
自動生成および意味的に誘導されるプロンプトフレームワークを最初に開発する。
LIBEROベンチマークの実験では、小さなマルチモーダル摂動でさえ大きな行動偏差を引き起こすことが示されている。
論文 参考訳(メタデータ) (2025-11-20T10:14:32Z) - LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - Diagnose, Localize, Align: A Full-Stack Framework for Reliable LLM Multi-Agent Systems under Instruction Conflicts [75.20929587906228]
LLM(Large Language Model)を利用したマルチエージェントシステム(MAS)は、複雑なタスクにおける協調推論、ツールの使用、役割特化調整を急速に進めている。
しかし、信頼性クリティカルなデプロイメントは、体系的な障害モード、すなわち命令の競合による階層的コンプライアンスによって妨げられている。
論文 参考訳(メタデータ) (2025-09-27T08:43:34Z) - Discrete-Guided Diffusion for Scalable and Safe Multi-Robot Motion Planning [56.240199425429445]
マルチロボット運動計画(MPMP)は、共有された連続作業空間で動作する複数のロボットのための軌道を生成する。
離散マルチエージェント探索(MAPF)法は,その拡張性から広く採用されているが,粗い離散化の軌道品質は高い。
本稿では、制約付き生成拡散モデルを用いた離散MAPF解法を導入することにより、2つのアプローチの限界に対処する。
論文 参考訳(メタデータ) (2025-08-27T17:59:36Z) - MARBLE: A Multi-Agent Rule-Based LLM Reasoning Engine for Accident Severity Prediction [1.3102025155414727]
交通安全システムにおいて,事故重大度予測が重要な役割を担っている。
既存の方法はしばしばモノリシックモデルやブラックボックスプロンプトに依存している。
本稿では,多エージェントルールに基づくLLMエンジンを提案し,その重大性予測タスクを,専門的推論エージェントのチーム間で分解する。
論文 参考訳(メタデータ) (2025-07-07T11:27:49Z) - Real-Time Anomaly Detection and Reactive Planning with Large Language Models [18.57162998677491]
例えば、大規模な言語モデル(LLM)は、インターネットスケールのデータに基づいて訓練され、ゼロショット機能を持つ。
本稿では,潜在的な異常に関する判断を安全な制御フレームワークに組み込む2段階の推論フレームワークを提案する。
これにより、モニターは、四輪車や自動運転車のような動的ロボットシステムの信頼性を向上させることができる。
論文 参考訳(メタデータ) (2024-07-11T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。