論文の概要: Tidiness Score-Guided Monte Carlo Tree Search for Visual Tabletop Rearrangement
- arxiv url: http://arxiv.org/abs/2502.17235v1
- Date: Mon, 24 Feb 2025 15:12:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:59:00.243261
- Title: Tidiness Score-Guided Monte Carlo Tree Search for Visual Tabletop Rearrangement
- Title(参考訳): テーブルトップ再配置のためのタイディネススコア誘導モンテカルロ木探索
- Authors: Hogun Kee, Wooseok Oh, Minjae Kang, Hyemin Ahn, Songhwai Oh,
- Abstract要約: 本稿では,モンテカルロ木探索フレームワーク(TSMCTS)について述べる。
TSMCTSは、RGB-Dカメラのみを使用してテーブルトップのタイピング問題を解決するように設計されている。
コーヒーテーブル、ダイニングテーブル、オフィスデスク、トイレなど、さまざまな環境において、その能力の実証に成功している。
- 参考スコア(独自算出の注目度): 15.024067698953845
- License:
- Abstract: In this paper, we present the tidiness score-guided Monte Carlo tree search (TSMCTS), a novel framework designed to address the tabletop tidying up problem using only an RGB-D camera. We address two major problems for tabletop tidying up problem: (1) the lack of public datasets and benchmarks, and (2) the difficulty of specifying the goal configuration of unseen objects. We address the former by presenting the tabletop tidying up (TTU) dataset, a structured dataset collected in simulation. Using this dataset, we train a vision-based discriminator capable of predicting the tidiness score. This discriminator can consistently evaluate the degree of tidiness across unseen configurations, including real-world scenes. Addressing the second problem, we employ Monte Carlo tree search (MCTS) to find tidying trajectories without specifying explicit goals. Instead of providing specific goals, we demonstrate that our MCTS-based planner can find diverse tidied configurations using the tidiness score as a guidance. Consequently, we propose TSMCTS, which integrates a tidiness discriminator with an MCTS-based tidying planner to find optimal tidied arrangements. TSMCTS has successfully demonstrated its capability across various environments, including coffee tables, dining tables, office desks, and bathrooms. The TTU dataset is available at: https://github.com/rllab-snu/TTU-Dataset.
- Abstract(参考訳): 本稿では,RGB-Dカメラのみを用いたテーブルトップ階層化問題に対処する新しいフレームワークであるモンテカルロ木探索(TSMCTS)を提案する。
1) 公開データセットやベンチマークの欠如, (2) 目に見えないオブジェクトの目標設定を特定するのが困難である。
シミュレーションで収集した構造化データセットであるTTUデータセットをテーブルトップに提示することで、前者に対処する。
このデータセットを用いて、視力に基づく判別器を訓練し、視力スコアを予測する。
この判別器は、現実世界のシーンを含む、目に見えない構成間での丁寧さの度合いを一貫して評価することができる。
次に,モンテカルロ木探索 (MCTS) を用いて, 明確な目標を明示することなく, 潮流の軌跡を探索する。
具体的目標を提供する代わりに、MCTSベースのプランナーが、タイディネススコアをガイダンスとして、多様なタイディッシュな構成を見つけることができることを実証する。
そこで本稿では,MCTSをベースとしたタイディニングプランナと,タイディネス識別器を統合したTSMCTSを提案する。
TSMCTSは、コーヒーテーブル、ダイニングテーブル、オフィスデスク、バスルームなど、様々な環境でその能力を実証している。
TTUデータセットは、https://github.com/rllab-snu/TTU-Dataset.comから入手できる。
関連論文リスト
- TART: An Open-Source Tool-Augmented Framework for Explainable Table-based Reasoning [61.14586098005874]
現在のLarge Language Models (LLM) は、テーブル構造を理解し、正確な数値推論を適用する能力に制限がある。
LLMと特殊なツールを統合するTART(Tool-Augmented Reasoning framework for Tables)を紹介した。
TARTには、正確なデータ表現を保証するテーブルフォーマッター、特定の計算ツールを開発するツールメーカー、説明可能性を維持するための説明ジェネレータの3つの重要なコンポーネントが含まれている。
論文 参考訳(メタデータ) (2024-09-18T06:19:59Z) - A large-scale dataset for end-to-end table recognition in the wild [13.717478398235055]
テーブル認識(Table Recognition, TR)は、パターン認識におけるホットスポットの一つ。
現在、実際のシナリオにおけるエンドツーエンドのTRは、3つのサブタスクを同時に達成しているが、まだ探索されていない研究領域である。
そこで本研究では,様々なテーブル形式を持つテーブル認識セット(TabRecSet)という大規模データセットを提案する。
論文 参考訳(メタデータ) (2023-03-27T02:48:51Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Unpaired Referring Expression Grounding via Bidirectional Cross-Modal
Matching [53.27673119360868]
表現基盤の参照はコンピュータビジョンにおいて重要かつ困難な課題である。
本稿では,これらの課題に対処する新しい双方向クロスモーダルマッチング(BiCM)フレームワークを提案する。
私たちのフレームワークは、2つの一般的なグラウンドデータセットで、以前の作業の6.55%と9.94%を上回っています。
論文 参考訳(メタデータ) (2022-01-18T01:13:19Z) - Adaptive Affinity for Associations in Multi-Target Multi-Camera Tracking [53.668757725179056]
本稿では,MTMCTにおけるアフィニティ推定を対応する対応範囲に適応させるための,単純かつ効果的な手法を提案する。
すべての外見の変化に対処する代わりに、データアソシエーション中に出現する可能性のあるものに特化したアフィニティメトリックを調整します。
ミスマッチを最小限に抑えるため、アダプティブアフィニティモジュールはグローバルなre-ID距離を大幅に改善する。
論文 参考訳(メタデータ) (2021-12-14T18:59:11Z) - Quantifying the Task-Specific Information in Text-Based Classifications [20.148222318025528]
データセットのショートカットは、分類タスクの*task-specific information*(TSI)に寄与しない。
本稿では,データセットの分類にタスク固有の情報がどの程度必要かを検討する。
このフレームワークはデータセット間の比較を可能にし、"一連のショートカット機能"とは別に、Multi-NLIタスクの各サンプルの分類には、Quora Question Pairよりも約0.4ナットのTSIが含まれている、と述べている。
論文 参考訳(メタデータ) (2021-10-17T21:54:38Z) - Scientific evidence extraction [0.0]
我々は新しいデータセットである Tables One Million (PubTables-1M) と新しいメトリクスのクラスである PubMed grid table similarity (GriTS) を提案する。
PubTables-1Mは、これまでで最大のデータセットの約2倍の大きさである。
PubTables-1Mでトレーニングしたオブジェクト検出モデルは,検出,構造認識,機能解析の3つのタスクすべてに対して,アウト・オブ・ザ・ボックスで優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-09-30T19:42:07Z) - Parsing Table Structures in the Wild [31.72347768545413]
本稿では,野生の画像からテーブル構造解析(TSP)の問題に取り組む。
本稿では,CenterNet上にCycle-CenterNetという新しいサイクルペアリングモジュールを持つアプローチを提案する。
実験では,我々のCycle-CenterNetが新しいWTWデータセット上でのテーブル構造解析の精度を一貫して達成していることを示す。
論文 参考訳(メタデータ) (2021-09-06T01:05:48Z) - Graph Attention Tracking [76.19829750144564]
汎用オブジェクト追跡のための簡易な目標認識型シームズグラフアテンションネットワークを提案する。
GOT-10k、UAV123、TB-100、LaSOTといった挑戦的なベンチマークの実験は、提案されたSiamGATが最先端のトラッカーよりも優れていることを示した。
論文 参考訳(メタデータ) (2020-11-23T04:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。