論文の概要: Evaluating VLMs for Score-Based, Multi-Probe Annotation of 3D Objects
- arxiv url: http://arxiv.org/abs/2311.17851v1
- Date: Wed, 29 Nov 2023 17:54:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 20:21:12.053381
- Title: Evaluating VLMs for Score-Based, Multi-Probe Annotation of 3D Objects
- Title(参考訳): 3次元オブジェクトのスコアベースマルチプローブアノテーションのためのVLMの評価
- Authors: Rishabh Kabra, Loic Matthey, Alexander Lerchner, Niloy J. Mitra
- Abstract要約: ラベルのない3Dオブジェクトは、様々なアノテーションタスクで事前訓練された視覚言語モデル(VLM)を利用する機会を提供する。
提案手法は, VLM のスコアをサンプル応答に用いて, VLM の問合せ毎に異なる因子を疎外する手法である。
- 参考スコア(独自算出の注目度): 73.50105018389958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unlabeled 3D objects present an opportunity to leverage pretrained vision
language models (VLMs) on a range of annotation tasks -- from describing object
semantics to physical properties. An accurate response must take into account
the full appearance of the object in 3D, various ways of phrasing the
question/prompt, and changes in other factors that affect the response. We
present a method to marginalize over any factors varied across VLM queries,
utilizing the VLM's scores for sampled responses. We first show that this
probabilistic aggregation can outperform a language model (e.g., GPT4) for
summarization, for instance avoiding hallucinations when there are contrasting
details between responses. Secondly, we show that aggregated annotations are
useful for prompt-chaining; they help improve downstream VLM predictions (e.g.,
of object material when the object's type is specified as an auxiliary input in
the prompt). Such auxiliary inputs allow ablating and measuring the
contribution of visual reasoning over language-only reasoning. Using these
evaluations, we show how VLMs can approach, without additional training or
in-context learning, the quality of human-verified type and material
annotations on the large-scale Objaverse dataset.
- Abstract(参考訳): ラベルのない3Dオブジェクトは、オブジェクトの意味論から物理的性質まで、さまざまなアノテーションタスクで事前訓練された視覚言語モデル(VLM)を活用する機会を提供する。
正確な応答は、オブジェクトの3Dでの完全な外観、質問/プロンプトの表現方法、反応に影響を与える他の要因の変化を考慮する必要がある。
提案手法は, VLM のスコアをサンプル応答に用いて, VLM の問合せ毎に異なる因子を疎外する手法である。
まず,この確率的アグリゲーションが要約のための言語モデル(gpt4など)を上回ること,例えば,応答間の対比的な詳細がある場合の幻覚を回避できることを示す。
次に、集約アノテーションがプロンプトチェインに有用であることを示し、下流のVLM予測を改善する(例えば、オブジェクトの型がプロンプトの補助入力として指定されたときのオブジェクト素材)。
このような補助入力は、言語のみの推論よりも視覚的推論の寄与をアブレーションし、測定することができる。
これらの評価を用いて、VLMが、追加のトレーニングや文脈内学習なしにどのようにアプローチできるか、大規模なObjaverseデータセット上での人間検証型およびマテリアルアノテーションの品質を示す。
関連論文リスト
- Learning to Rank Pre-trained Vision-Language Models for Downstream Tasks [41.488394198111976]
CLIPのような視覚言語モデル(VLM)は、分類ベンチマークで星のゼロショット能力を示している。
ラベル付けされていない下流タスクで最高のパフォーマンスでVLMを選択するのは簡単ではありません。
本稿では、教師なしの下流データセットのみを利用できる、テクスチャファイン教師付き視覚言語モデル選択の問題を紹介する。
論文 参考訳(メタデータ) (2024-12-30T03:26:53Z) - LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models [20.697019266074747]
視覚言語モデル(VLM)は、視覚エンコーダと大型言語モデル(LLM)を組み合わせて世界を認識する。
近年の研究では、VLMは幻覚に弱いことが示されている。
我々は、True Understanding (TU)、IGnorance (IG)、StuBbornness (SB)、InDecision (ID)といった新しいメトリクスを紹介します。
論文 参考訳(メタデータ) (2024-07-18T12:11:12Z) - VAPO: Visibility-Aware Keypoint Localization for Efficient 6DoF Object Pose Estimation [52.81869878956534]
2次元画像における3Dキーポイントの局所化は、6DoFオブジェクトのポーズ推定のための3D-2D対応を確立する効果的な方法である。
本稿では、重要なキーポイントを可視性の観点からローカライズすることでこの問題に対処する。
我々は、可視性を考慮した重要度と最先端のポーズ推定アルゴリズムを統合することにより、VAPO(Visibility-Aware POse estimator)を構築する。
論文 参考訳(メタデータ) (2024-03-21T16:59:45Z) - 3VL: Using Trees to Improve Vision-Language Models' Interpretability [40.678288227161936]
VLM(Vision-Language Model)は、画像とテキストの表現の整列に有効であることが証明されており、多くの下流タスクに転送すると、より優れたゼロショット結果が得られる。
これらの表現は、オブジェクトの属性、状態、異なるオブジェクト間の関係を認識するなど、構成言語概念(CLC)を理解する際のいくつかの重要な欠点に悩まされる。
本稿では,木拡張ビジョンランゲージ(3VL)モデルのアーキテクチャとトレーニング手法を紹介する。
論文 参考訳(メタデータ) (2023-12-28T20:26:03Z) - GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language
Pre-training and Open-Vocabulary Object Detection [24.48128633414131]
画像テキストペアと純粋なオブジェクト検出データから学習した既存のモデルから視覚的グラウンドティング能力を利用するゼロショット手法を提案する。
提案手法は,RefCOCO/+/gデータセットにおいて,他のゼロショット法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-22T20:14:55Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Towards Addressing the Misalignment of Object Proposal Evaluation for
Vision-Language Tasks via Semantic Grounding [36.03994217853856]
Vision-Language (VL)タスクで生成されたオブジェクト提案のパフォーマンスは、現在利用可能なすべてのアノテーションで評価されている。
我々の研究は、この現象の研究として役立ち、セマンティックグラウンドディングの有効性を探求し、その効果を緩和する。
提案手法は一貫性があり,画像キャプションの指標と人間のアノテーションによって選択されたアノテーションとのアライメントが大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2023-09-01T02:19:41Z) - Reflection Invariance Learning for Few-shot Semantic Segmentation [53.20466630330429]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーション付きサポートイメージを持つクエリイメージにおいて、目に見えないクラスのオブジェクトをセグメントすることを目的としている。
本稿では,マルチビューマッチング方式でリフレクション不変性をマイニングするための,新しい数ショットセグメンテーションフレームワークを提案する。
PASCAL-$5textiti$とCOCO-$20textiti$データセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-01T15:14:58Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。