論文の概要: Tidiness Score-Guided Monte Carlo Tree Search for Visual Tabletop Rearrangement
- arxiv url: http://arxiv.org/abs/2502.17235v1
- Date: Mon, 24 Feb 2025 15:12:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 22:36:56.625703
- Title: Tidiness Score-Guided Monte Carlo Tree Search for Visual Tabletop Rearrangement
- Title(参考訳): テーブルトップ再配置のためのタイディネススコア誘導モンテカルロ木探索
- Authors: Hogun Kee, Wooseok Oh, Minjae Kang, Hyemin Ahn, Songhwai Oh,
- Abstract要約: 本稿では,モンテカルロ木探索フレームワーク(TSMCTS)について述べる。
TSMCTSは、RGB-Dカメラのみを使用してテーブルトップのタイピング問題を解決するように設計されている。
コーヒーテーブル、ダイニングテーブル、オフィスデスク、トイレなど、さまざまな環境において、その能力の実証に成功している。
- 参考スコア(独自算出の注目度): 15.024067698953845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present the tidiness score-guided Monte Carlo tree search (TSMCTS), a novel framework designed to address the tabletop tidying up problem using only an RGB-D camera. We address two major problems for tabletop tidying up problem: (1) the lack of public datasets and benchmarks, and (2) the difficulty of specifying the goal configuration of unseen objects. We address the former by presenting the tabletop tidying up (TTU) dataset, a structured dataset collected in simulation. Using this dataset, we train a vision-based discriminator capable of predicting the tidiness score. This discriminator can consistently evaluate the degree of tidiness across unseen configurations, including real-world scenes. Addressing the second problem, we employ Monte Carlo tree search (MCTS) to find tidying trajectories without specifying explicit goals. Instead of providing specific goals, we demonstrate that our MCTS-based planner can find diverse tidied configurations using the tidiness score as a guidance. Consequently, we propose TSMCTS, which integrates a tidiness discriminator with an MCTS-based tidying planner to find optimal tidied arrangements. TSMCTS has successfully demonstrated its capability across various environments, including coffee tables, dining tables, office desks, and bathrooms. The TTU dataset is available at: https://github.com/rllab-snu/TTU-Dataset.
- Abstract(参考訳): 本稿では,RGB-Dカメラのみを用いたテーブルトップ階層化問題に対処する新しいフレームワークであるモンテカルロ木探索(TSMCTS)を提案する。
1) 公開データセットやベンチマークの欠如, (2) 目に見えないオブジェクトの目標設定を特定するのが困難である。
シミュレーションで収集した構造化データセットであるTTUデータセットをテーブルトップに提示することで、前者に対処する。
このデータセットを用いて、視力に基づく判別器を訓練し、視力スコアを予測する。
この判別器は、現実世界のシーンを含む、目に見えない構成間での丁寧さの度合いを一貫して評価することができる。
次に,モンテカルロ木探索 (MCTS) を用いて, 明確な目標を明示することなく, 潮流の軌跡を探索する。
具体的目標を提供する代わりに、MCTSベースのプランナーが、タイディネススコアをガイダンスとして、多様なタイディッシュな構成を見つけることができることを実証する。
そこで本稿では,MCTSをベースとしたタイディニングプランナと,タイディネス識別器を統合したTSMCTSを提案する。
TSMCTSは、コーヒーテーブル、ダイニングテーブル、オフィスデスク、バスルームなど、様々な環境でその能力を実証している。
TTUデータセットは、https://github.com/rllab-snu/TTU-Dataset.comから入手できる。
関連論文リスト
- RAPTOR: Refined Approach for Product Table Object Recognition [0.1516287840715525]
本研究は,テーブル抽出を改善するための最先端モデルを強化するために設計されたモジュール式後処理システムであるRAPTORを紹介する。
RAPTORは、TD(recurrent Table Detection)とTSR(Table Structure Recognition)の問題に対処し、両方の精度構造予測を改善した。
その結果、私たちのアプローチは製品表に優れていますが、様々なテーブル形式にまたがって適切なパフォーマンスを維持しています。
論文 参考訳(メタデータ) (2025-02-19T13:59:06Z) - TART: An Open-Source Tool-Augmented Framework for Explainable Table-based Reasoning [61.14586098005874]
現在のLarge Language Models (LLM) は、テーブル構造を理解し、正確な数値推論を適用する能力に制限がある。
LLMと特殊なツールを統合するTART(Tool-Augmented Reasoning framework for Tables)を紹介した。
TARTには、正確なデータ表現を保証するテーブルフォーマッター、特定の計算ツールを開発するツールメーカー、説明可能性を維持するための説明ジェネレータの3つの重要なコンポーネントが含まれている。
論文 参考訳(メタデータ) (2024-09-18T06:19:59Z) - TabReD: Analyzing Pitfalls and Filling the Gaps in Tabular Deep Learning Benchmarks [30.922069185335246]
典型的産業応用における表型データの2つの共通特性は、通常文献で評価に使用されるデータセットに不足している。
運用環境におけるデータセットのかなりの部分は、広範なデータ取得と機能エンジニアリングパイプラインに由来する。
これは、学術的なデータセットと比較して、予測的、非形式的、相関的な特徴の絶対的および相対的な数に影響を与える可能性がある。
論文 参考訳(メタデータ) (2024-06-27T17:55:31Z) - Towards Cross-Table Masked Pretraining for Web Data Mining [22.952238405240188]
本稿では,CM2と呼ばれる,革新的で汎用的で効率的なクロステーブル事前学習フレームワークを提案する。
実験では,CM2の最先端性能を実証し,クロステーブルプレトレーニングが様々なダウンストリームタスクを向上させることを実証した。
論文 参考訳(メタデータ) (2023-07-10T02:27:38Z) - A large-scale dataset for end-to-end table recognition in the wild [13.717478398235055]
テーブル認識(Table Recognition, TR)は、パターン認識におけるホットスポットの一つ。
現在、実際のシナリオにおけるエンドツーエンドのTRは、3つのサブタスクを同時に達成しているが、まだ探索されていない研究領域である。
そこで本研究では,様々なテーブル形式を持つテーブル認識セット(TabRecSet)という大規模データセットを提案する。
論文 参考訳(メタデータ) (2023-03-27T02:48:51Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Unpaired Referring Expression Grounding via Bidirectional Cross-Modal
Matching [53.27673119360868]
表現基盤の参照はコンピュータビジョンにおいて重要かつ困難な課題である。
本稿では,これらの課題に対処する新しい双方向クロスモーダルマッチング(BiCM)フレームワークを提案する。
私たちのフレームワークは、2つの一般的なグラウンドデータセットで、以前の作業の6.55%と9.94%を上回っています。
論文 参考訳(メタデータ) (2022-01-18T01:13:19Z) - Adaptive Affinity for Associations in Multi-Target Multi-Camera Tracking [53.668757725179056]
本稿では,MTMCTにおけるアフィニティ推定を対応する対応範囲に適応させるための,単純かつ効果的な手法を提案する。
すべての外見の変化に対処する代わりに、データアソシエーション中に出現する可能性のあるものに特化したアフィニティメトリックを調整します。
ミスマッチを最小限に抑えるため、アダプティブアフィニティモジュールはグローバルなre-ID距離を大幅に改善する。
論文 参考訳(メタデータ) (2021-12-14T18:59:11Z) - Scientific evidence extraction [0.0]
我々は新しいデータセットである Tables One Million (PubTables-1M) と新しいメトリクスのクラスである PubMed grid table similarity (GriTS) を提案する。
PubTables-1Mは、これまでで最大のデータセットの約2倍の大きさである。
PubTables-1Mでトレーニングしたオブジェクト検出モデルは,検出,構造認識,機能解析の3つのタスクすべてに対して,アウト・オブ・ザ・ボックスで優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-09-30T19:42:07Z) - Parsing Table Structures in the Wild [31.72347768545413]
本稿では,野生の画像からテーブル構造解析(TSP)の問題に取り組む。
本稿では,CenterNet上にCycle-CenterNetという新しいサイクルペアリングモジュールを持つアプローチを提案する。
実験では,我々のCycle-CenterNetが新しいWTWデータセット上でのテーブル構造解析の精度を一貫して達成していることを示す。
論文 参考訳(メタデータ) (2021-09-06T01:05:48Z) - Graph Attention Tracking [76.19829750144564]
汎用オブジェクト追跡のための簡易な目標認識型シームズグラフアテンションネットワークを提案する。
GOT-10k、UAV123、TB-100、LaSOTといった挑戦的なベンチマークの実験は、提案されたSiamGATが最先端のトラッカーよりも優れていることを示した。
論文 参考訳(メタデータ) (2020-11-23T04:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。