論文の概要: COCOTree: A Dataset and Benchmark for Open Tree-Structured Visual Decomposition
- arxiv url: http://arxiv.org/abs/2605.22068v1
- Date: Thu, 21 May 2026 07:03:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.126531
- Title: COCOTree: A Dataset and Benchmark for Open Tree-Structured Visual Decomposition
- Title(参考訳): COCOTree: オープンツリー構造化ビジュアル分解のためのデータセットとベンチマーク
- Authors: Junhyub Lee, Seunghun Chae, Hyosu Kim,
- Abstract要約: オープンツリー分解のタスクを形式化し、有効にします。
COCOTreeは21Kイメージと1.8M構造ノードを備えた大規模ベンチマークである。
マスク精度,ラベル精度,構造整合性を共同で評価するオープンツリー品質(OTQ)指標を提案する。
- 参考スコア(独自算出の注目度): 1.1342625695057282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We formalize and enable the task of open tree decomposition, which segments an image into hierarchical trees of visual components with unconstrained granularity and flexibility. Specifically, we provide the foundation benchmark for this new paradigm with the following three key contributions. First, we overcome the prohibitively high cognitive and physical bottlenecks of manual annotation by developing a fully automated generation pipeline that synergizes the semantic reasoning of Large Vision-Language Models (LVLMs) with the precise geometric grounding of SAM 3. Second, leveraging this pipeline, we construct COCOTree, a massive-scale benchmark featuring over 21K images and 1.8M structural nodes. By embracing an open-vocabulary space of over 3.5K unique labels, it successfully captures the long-tail distribution of complex physical assemblies. Notably, rigorous human evaluation confirms our generated annotations demonstrate strong alignment with human structural judgment. Third, we establish a standardized evaluation protocol by proposing the Open Tree Quality (OTQ) metric, which jointly assesses mask precision, label accuracy, and structural consistency. We release our dataset and benchmark code at https://github.com/melonkick3090/COCOTree.
- Abstract(参考訳): 本研究では,開木分解のタスクを形式化し,制約のない粒度と柔軟性を持つ視覚成分の階層木に分割する。
具体的には、以下の3つの主要なコントリビューションで、この新しいパラダイムの基礎ベンチマークを提供します。
まず,LVLM(Large Vision-Language Models)のセマンティック推論をSAM 3の正確な幾何学的根拠と組み合わせた完全自動生成パイプラインを開発することで,手動アノテーションの認知的・身体的ボトルネックを克服する。
第2に、このパイプラインを活用して、21K画像と1.8M構造ノードを備えた大規模なベンチマークであるCOCOTreeを構築します。
3.5K以上のユニークなラベルのオープン語彙空間を受け入れることで、複雑な物理集合体の長い尾の分布を捉えることに成功した。
特に、厳密な人間の評価は、生成したアノテーションが人間の構造的判断と強く一致していることを確認する。
第3に、マスク精度、ラベル精度、構造整合性を共同で評価するオープンツリー品質(OTQ)指標を提案することにより、標準化された評価プロトコルを確立する。
私たちはデータセットとベンチマークコードをhttps://github.com/melonkick3090/COCOTree.comでリリースしています。
関連論文リスト
- Learning Order Forest for Qualitative-Attribute Data Clustering [52.612779710298526]
本稿では,属性内定性値間の局所的な順序関係を柔軟に表現する木のような距離構造を探索する。
より適切な木構造とクラスタを反復的に獲得するために,共同学習機構を提案する。
実験により、共同学習は森林をクラスタリングタスクに適応させ、正確な結果を得ることを示した。
論文 参考訳(メタデータ) (2026-03-03T07:49:50Z) - ZS-TreeSeg: A Zero-Shot Framework for Tree Crown Instance Segmentation [5.392796525513568]
樹冠分割はバイオマス推定と生態モニタリングのためのリモートセンシングにおいて重要な課題である。
2つの成熟したタスクから適応するフレームワークであるZSegを提案する。
われわれのフレームワークはセンサタイプとキャノピーにまたがって堅牢に一般化されている。
論文 参考訳(メタデータ) (2026-01-31T02:48:17Z) - TreeGPT: Pure TreeFFN Encoder-Decoder Architecture for Structured Reasoning Without Attention Mechanisms [0.16244541005112745]
TreeGPTは、構造化推論タスクのための純粋なTreeFFNエンコーダデコーダ設計の可能性を探る無注意ニューラルネットワークアーキテクチャである。
我々はARC Prize 2025データセットに対するアプローチを評価し、TreeGPTは3.16Mパラメータを使用して99%の精度を達成している。
論文 参考訳(メタデータ) (2025-09-06T00:39:33Z) - ReTreever: Tree-based Coarse-to-Fine Representations for Retrieval [64.44265315244579]
そこで本研究では,様々なレベルで参照文書を整理し,表現するためのツリーベース手法を提案する。
我々の手法はReTreeverと呼ばれ、クエリと参照ドキュメントが同様のツリーブランチに割り当てられるように、バイナリツリーの内部ノード毎のルーティング関数を共同で学習する。
我々の評価では、ReTreeverは一般的に完全な表現精度を保っている。
論文 参考訳(メタデータ) (2025-02-11T21:35:13Z) - Wasserstein Auto-Encoders of Merge Trees (and Persistence Diagrams) [5.384630221560809]
本稿では、マージツリーの自動符号化(MT-WAE)のための計算フレームワークを提案する。
ベクトル化されたデータを扱う従来のオートエンコーダとは対照的に,ネットワークの各層における関連計量空間上のマージ木を明示的に操作する。
公開アンサンブルの実験では,MT-WAE計算を平均数分のオーダーで行うことで,アルゴリズムの効率を実証した。
論文 参考訳(メタデータ) (2023-07-05T09:46:52Z) - Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。
クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。
このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文 参考訳(メタデータ) (2023-05-24T11:05:12Z) - PointTree: Transformation-Robust Point Cloud Encoder with Relaxed K-D
Trees [27.641101804012152]
我々は、リラックスしたK-D木に基づく変換に頑健なポイントクラウドエンコーダであるPointTreeを提案する。
我々のアプローチの鍵は、主成分分析(PCA)を用いたK-D木における分割則の設計である。
この新しいアーキテクチャ設計に加えて、事前調整による導入をさらに改善する。
論文 参考訳(メタデータ) (2022-08-11T17:59:09Z) - Entailment Tree Explanations via Iterative Retrieval-Generation Reasoner [56.08919422452905]
我々はIRGR(Iterative Retrieval-Generation Reasoner)と呼ばれるアーキテクチャを提案する。
本モデルでは,テキストの前提からステップバイステップの説明を体系的に生成することにより,与えられた仮説を説明することができる。
前提条件の検索と細分化木の生成に関する既存のベンチマークを上回り、全体の正しさはおよそ300%向上した。
論文 参考訳(メタデータ) (2022-05-18T21:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。