Fugu-MT 論文翻訳(概要): CoT3DRef: Chain-of-Thoughts Data-Efficient 3D Visual Grounding

論文の概要: CoT3DRef: Chain-of-Thoughts Data-Efficient 3D Visual Grounding

arxiv url: http://arxiv.org/abs/2310.06214v2
Date: Thu, 23 Nov 2023 11:04:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 03:03:42.122886
Title: CoT3DRef: Chain-of-Thoughts Data-Efficient 3D Visual Grounding
Title（参考訳）: CoT3DRef:データ効率のよい3Dビジュアルグラウンド
Authors: Eslam Mohamed Bakr, Mohamed Ayman, Mahmoud Ahmed, Habib Slim, Mohamed Elhoseiny
Abstract要約: 3Dビジュアルグラウンドティングは、発話によって条件付けられた3Dシーンでオブジェクトをローカライズする機能である。既存のほとんどのメソッドは参照ヘッドを使って参照オブジェクトを直接ローカライズし、複雑なシナリオで失敗する。本稿では,まずアンカーの連鎖と最終目標を予測し,シーケンス・ツー・シーケンス・タスクとして3次元視覚接地問題を定式化する。
参考スコア（独自算出の注目度）: 27.124888373265293
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: 3D visual grounding is the ability to localize objects in 3D scenes conditioned by utterances. Most existing methods devote the referring head to localize the referred object directly, causing failure in complex scenarios. In addition, it does not illustrate how and why the network reaches the final decision. In this paper, we address this question Can we design an interpretable 3D visual grounding framework that has the potential to mimic the human perception system?. To this end, we formulate the 3D visual grounding problem as a sequence-to-sequence task by first predicting a chain of anchors and then the final target. Interpretability not only improves the overall performance but also helps us identify failure cases. Following the chain of thoughts approach enables us to decompose the referring task into interpretable intermediate steps, boosting the performance and making our framework extremely data-efficient. Moreover, our proposed framework can be easily integrated into any existing architecture. We validate our approach through comprehensive experiments on the Nr3D, Sr3D, and Scanrefer benchmarks and show consistent performance gains compared to existing methods without requiring manually annotated data. Furthermore, our proposed framework, dubbed CoT3DRef, is significantly data-efficient, whereas on the Sr3D dataset, when trained only on 10% of the data, we match the SOTA performance that trained on the entire data.
Abstract（参考訳）: 3Dビジュアルグラウンドティングは、発話によって条件付けられた3Dシーンでオブジェクトをローカライズする機能である。既存のほとんどのメソッドは参照ヘッドを使って参照オブジェクトを直接ローカライズし、複雑なシナリオで失敗する。さらに、ネットワークが最終決定に達する方法や理由も説明されていない。本稿では,人間の知覚システムを模倣する可能性を秘めた,解釈可能な3次元視覚接地フレームワークを設計できるのか? . この目的のために、まずアンカーの連鎖と最終ターゲットを予測することによって、シーケンス・ツー・シーケンスタスクとして3次元視覚接地問題を定式化する。解釈性は全体的なパフォーマンスを向上させるだけでなく、障害事例の特定にも役立ちます。思考の連鎖に従えば、参照タスクを解釈可能な中間ステップに分解し、パフォーマンスを高め、フレームワークを極めてデータ効率良くすることができる。さらに,提案するフレームワークは既存のアーキテクチャに容易に組み込むことができる。我々は,Nr3D,Sr3D,Scanreferベンチマークの総合的な実験を通じてアプローチを検証するとともに,手動のアノテートデータを必要としない既存手法と比較して一貫した性能向上を示す。さらに,提案フレームワークであるcot3drefはデータ効率が著しく向上するが,sr3dデータセットでは10%のデータしかトレーニングしない場合,データ全体のsata性能と一致している。

関連論文リスト

Error-Driven Scene Editing for 3D Grounding in Large Language Models [71.41120775319088]
近年の3D-LLMの進歩にもかかわらず、3D環境における視覚的および空間的要素に正確に接地する言語に限られている。この制限は、3Dリソースの不足による空間的理解よりも、言語推論に焦点を当てたトレーニングデータに起因している。本稿では,これらのバイアスを緩和する正確な視覚的カウンターファクトを生成するための重要なメカニズムとして,3Dシーン編集を提案する。
論文参考訳（メタデータ） (2025-11-18T03:13:29Z)
TSP3D: Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding [74.033589504806]
視覚的グラウンド化のための効率的なマルチレベル畳み込みアーキテクチャを提案する。提案手法はトップ推論速度を達成し,従来の最速の手法を100% FPS で上回っている。
論文参考訳（メタデータ） (2025-02-14T18:59:59Z)
Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文参考訳（メタデータ） (2024-09-12T14:54:31Z)
Improving 2D Feature Representations by 3D-Aware Fine-Tuning [17.01280751430423]
現在の視覚基礎モデルは、構造化されていない2Dデータに基づいて純粋に訓練されている。 3次元認識データの微調整により,出現するセマンティックな特徴の質が向上することを示す。
論文参考訳（メタデータ） (2024-07-29T17:59:21Z)
Inverse Neural Rendering for Explainable Multi-Object Tracking [35.072142773300655]
我々はRGBカメラから3Dマルチオブジェクト追跡をEmphInverse Rendering (IR)問題として再放送した。我々は、本質的に形状と外観特性を歪ませる生成潜在空間上の画像損失を最適化する。本手法の一般化とスケーリング能力は,合成データのみから生成前を学習することで検証する。
論文参考訳（メタデータ） (2024-04-18T17:37:53Z)
Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文参考訳（メタデータ） (2023-07-18T13:49:49Z)
BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文参考訳（メタデータ） (2023-03-24T17:13:49Z)
Attention-Based Depth Distillation with 3D-Aware Positional Encoding for Monocular 3D Object Detection [10.84784828447741]
ADDは、3D対応の位置符号化を備えた注意に基づく深度知識蒸留フレームワークである。教師の設計によると、私たちのフレームワークはシームレスで、ドメインギャップフリーで、実装が容易で、オブジェクト指向の地層深度と互換性があります。我々は,3つの代表的な単分子検出器上でのフレームワークを実装し,予測計算コストの増大を伴わず,最先端の性能を実現する。
論文参考訳（メタデータ） (2022-11-30T06:39:25Z)
Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文参考訳（メタデータ） (2022-03-25T00:20:31Z)
PointContrast: Unsupervised Pre-training for 3D Point Cloud Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文参考訳（メタデータ） (2020-07-21T17:59:22Z)
Semantic Correspondence via 2D-3D-2D Cycle [58.023058561837686]
本稿では,3次元領域に利用して意味的対応を予測するための新しい手法を提案する。提案手法は,標準的なセマンティックベンチマークにおいて比較,さらに優れた結果を与えることを示す。
論文参考訳（メタデータ） (2020-04-20T05:27:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。