論文の概要: CubeRobot: Grounding Language in Rubik's Cube Manipulation via Vision-Language Model
- arxiv url: http://arxiv.org/abs/2503.19281v1
- Date: Tue, 25 Mar 2025 02:23:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:54:25.481119
- Title: CubeRobot: Grounding Language in Rubik's Cube Manipulation via Vision-Language Model
- Title(参考訳): CubeRobot:視覚言語モデルによるルービックキューブ操作における接地言語
- Authors: Feiyang Wang, Xiaomin Yu, Wangyu Wu,
- Abstract要約: 3x3ルービックキューブを解くのに適した視覚言語モデル(VLM)であるCubeRobotを紹介する。
VLM生成計画クエリからタスク関連機能を抽出するパラダイムとして,デュアルループのVisionCoTアーキテクチャとメモリストリームを組み込んだ。
低レベルのルービックキューブの復元作業では、キューブロボットは100%の精度を達成し、中程度のタスクでは100%に似ており、高レベルのタスクでは80%の精度を達成した。
- 参考スコア(独自算出の注目度): 1.644433638087587
- License:
- Abstract: Proving Rubik's Cube theorems at the high level represents a notable milestone in human-level spatial imagination and logic thinking and reasoning. Traditional Rubik's Cube robots, relying on complex vision systems and fixed algorithms, often struggle to adapt to complex and dynamic scenarios. To overcome this limitation, we introduce CubeRobot, a novel vision-language model (VLM) tailored for solving 3x3 Rubik's Cubes, empowering embodied agents with multimodal understanding and execution capabilities. We used the CubeCoT image dataset, which contains multiple-level tasks (43 subtasks in total) that humans are unable to handle, encompassing various cube states. We incorporate a dual-loop VisionCoT architecture and Memory Stream, a paradigm for extracting task-related features from VLM-generated planning queries, thus enabling CubeRobot to independent planning, decision-making, reflection and separate management of high- and low-level Rubik's Cube tasks. Furthermore, in low-level Rubik's Cube restoration tasks, CubeRobot achieved a high accuracy rate of 100%, similar to 100% in medium-level tasks, and achieved an accuracy rate of 80% in high-level tasks.
- Abstract(参考訳): ルービックのキューブ定理を高いレベルで証明することは、人間レベルの空間的想像力と論理的思考と推論において顕著なマイルストーンである。
従来のルービックキューブロボットは複雑な視覚システムと固定アルゴリズムに依存しており、複雑でダイナミックなシナリオに適応するのに苦労することが多い。
この制限を克服するために,3x3ルービックキューブを解くための視覚言語モデル(VLM)であるCubeRobotを導入する。
我々は、人間が扱えない複数のレベルタスク(合計43のサブタスク)を含むCubeCoT画像データセットを使用し、様々な立方体状態を包含した。
VLM生成したプランニングクエリからタスク関連機能を抽出するパラダイムであるデュアルループVisionCoTアーキテクチャとメモリストリームを組み込んで,高レベルかつ低レベルなルービックキューブタスクの独立計画,意思決定,リフレクション,分離管理を可能にする。
さらに、低レベルのルービックキューブ復元作業では、キューブロボットは中程度のタスクで100%に似ており、高レベルのタスクで80%の精度を達成した。
関連論文リスト
- Node Classification and Search on the Rubik's Cube Graph with GNNs [55.2480439325792]
本研究では3x3x3ルービックのルービック問題を解くための深部幾何学モデルの応用に焦点を当てた。
まず、立方体のグラフ表現と距離をモデルの最適化目的として定義することから始める。
距離近似タスクはノード分類問題として再構成され、グラフニューラルネットワーク(GNN)を用いて効果的に処理される。
論文 参考訳(メタデータ) (2025-01-30T18:52:43Z) - CubeFormer: A Simple yet Effective Baseline for Lightweight Image Super-Resolution [55.94314421887744]
軽量画像超解像(SR)法は、解像度を高め、軽量ニューラルネットワークを用いて画像の詳細を復元することを目的としている。
分析の結果,これらの手法は,特徴表現や細部回復に悪影響を及ぼす制約付き特徴多様性によって妨げられていることが明らかとなった。
そこで我々は,包括的情報集約を完了させることにより,特徴の豊かさを高めるために,CubeFormerというシンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2024-12-03T08:02:26Z) - Solving a Rubik's Cube Using its Local Graph Structure [13.219469732742354]
ルービックスキューブには6つの面と12の可能なアクションがあり、小さくて制約のないアクション空間に繋がる。
ルービックスキューブはグラフとして表すことができ、立方体の状態はノードであり、作用はエッジである。
グラフ畳み込みネットワークに基づいて、スクランブルされたルービックスキューブの解を見つけるための新しい探索アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-08-15T05:39:52Z) - Language-Image Models with 3D Understanding [59.499585515469974]
LV3Dと呼ばれる2Dおよび3Dのための大規模事前学習データセットを開発した。
次に,新しいMLLMであるCube-LLMを導入し,LV3Dで事前学習する。
純粋なデータスケーリングは、3D特有のアーキテクチャ設計やトレーニング目的を使わずに、強力な3D知覚能力を実現することを示す。
論文 参考訳(メタデータ) (2024-05-06T17:57:27Z) - Towards Learning Rubik's Cube with N-tuple-based Reinforcement Learning [0.0]
この研究は、一般ボードゲーム(GBG)学習およびプレイフレームワークにおいて、ルービックキューブゲーム(またはパズル)の学習と解決方法を詳細に記述している。
立方体の状態表現、ねじれ、全キューブ回転、色変換でそれを変換する方法、およびルービックキューブにおける対称性の使用を説明する。
論文 参考訳(メタデータ) (2023-01-28T11:38:10Z) - Are Deep Neural Networks SMARTer than Second Graders? [85.60342335636341]
6~8歳児を対象としたビジュオ言語パズルの解法において,ニューラルネットワークの抽象化,推論,一般化能力の評価を行った。
我々のデータセットは101のユニークなパズルで構成されており、各パズルは絵の質問で構成されており、それらの解には算術、代数学、空間推論を含むいくつかの基本的なスキルが混在している必要がある。
実験により、強力なディープモデルは教師付き設定でパズルに合理的な性能を与えるが、一般化のために解析するとランダムな精度よりは良くないことが明らかになった。
論文 参考訳(メタデータ) (2022-12-20T04:33:32Z) - A Dataset for Hyper-Relational Extraction and a Cube-Filling Approach [59.89749342550104]
本稿では,テキストからより具体的で完全な事実を抽出するハイパーリレーショナル抽出の課題を提案する。
既存のモデルは、3つの実体間の相互作用を考えるモデルを必要とするため、ハイパーリレーショナル抽出を行うことはできない。
テーブル充填手法に着想を得た立方体充填モデルであるCubeREを提案する。
論文 参考訳(メタデータ) (2022-11-18T03:51:28Z) - Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw
Puzzles [67.39567701983357]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要なトピックである。
近年の自己教師型学習の進歩に触発された本論文は,直感的かつ難解なプレテキストタスクを解くことによって,VADに対処する。
提案手法は3つの公開ベンチマークにおいて最先端のベンチマークよりも優れている。
論文 参考訳(メタデータ) (2022-07-20T19:49:32Z) - Benchmarking Robot Manipulation with the Rubik's Cube [15.922643222904172]
高精度な操作とシーケンシャルな操作を同時に行うためのベンチマークとして,Rubikの立方体演算を提案する。
本稿では,ルービックキューブ操作の精度と速度を定量的に測定するプロトコルを提案する。
本稿では,PR2ロボット上での2つの異なるベースラインアプローチについて,このプロトコルを実証する。
論文 参考訳(メタデータ) (2022-02-14T22:34:18Z) - CubeTR: Learning to Solve The Rubiks Cube Using Transformers [0.0]
ルービックス立方体は、可能な構成の五重項に対して単一の解状態を持ち、非常にスパースな報酬をもたらす。
提案モデルであるCubeTRは、より長いアクションシーケンスに参加し、スパース報酬の問題に対処する。
論文 参考訳(メタデータ) (2021-11-11T03:17:28Z) - Self-Supervision is All You Need for Solving Rubik's Cube [0.0]
この研究は、ルービックキューブで表される、あらかじめ定義されたゴールで問題を解決するためのシンプルで効率的なディープラーニング手法を導入する。
このような問題に対して、目標状態から分岐するランダムスクランブル上でディープニューラルネットワークをトレーニングすることは、ほぼ最適解を達成するのに十分であることを示す。
論文 参考訳(メタデータ) (2021-06-06T15:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。