論文の概要: Evaluating VLMs for Score-Based, Multi-Probe Annotation of 3D Objects
- arxiv url: http://arxiv.org/abs/2311.17851v1
- Date: Wed, 29 Nov 2023 17:54:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 20:21:12.053381
- Title: Evaluating VLMs for Score-Based, Multi-Probe Annotation of 3D Objects
- Title(参考訳): 3次元オブジェクトのスコアベースマルチプローブアノテーションのためのVLMの評価
- Authors: Rishabh Kabra, Loic Matthey, Alexander Lerchner, Niloy J. Mitra
- Abstract要約: ラベルのない3Dオブジェクトは、様々なアノテーションタスクで事前訓練された視覚言語モデル(VLM)を利用する機会を提供する。
提案手法は, VLM のスコアをサンプル応答に用いて, VLM の問合せ毎に異なる因子を疎外する手法である。
- 参考スコア(独自算出の注目度): 73.50105018389958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unlabeled 3D objects present an opportunity to leverage pretrained vision
language models (VLMs) on a range of annotation tasks -- from describing object
semantics to physical properties. An accurate response must take into account
the full appearance of the object in 3D, various ways of phrasing the
question/prompt, and changes in other factors that affect the response. We
present a method to marginalize over any factors varied across VLM queries,
utilizing the VLM's scores for sampled responses. We first show that this
probabilistic aggregation can outperform a language model (e.g., GPT4) for
summarization, for instance avoiding hallucinations when there are contrasting
details between responses. Secondly, we show that aggregated annotations are
useful for prompt-chaining; they help improve downstream VLM predictions (e.g.,
of object material when the object's type is specified as an auxiliary input in
the prompt). Such auxiliary inputs allow ablating and measuring the
contribution of visual reasoning over language-only reasoning. Using these
evaluations, we show how VLMs can approach, without additional training or
in-context learning, the quality of human-verified type and material
annotations on the large-scale Objaverse dataset.
- Abstract(参考訳): ラベルのない3Dオブジェクトは、オブジェクトの意味論から物理的性質まで、さまざまなアノテーションタスクで事前訓練された視覚言語モデル(VLM)を活用する機会を提供する。
正確な応答は、オブジェクトの3Dでの完全な外観、質問/プロンプトの表現方法、反応に影響を与える他の要因の変化を考慮する必要がある。
提案手法は, VLM のスコアをサンプル応答に用いて, VLM の問合せ毎に異なる因子を疎外する手法である。
まず,この確率的アグリゲーションが要約のための言語モデル(gpt4など)を上回ること,例えば,応答間の対比的な詳細がある場合の幻覚を回避できることを示す。
次に、集約アノテーションがプロンプトチェインに有用であることを示し、下流のVLM予測を改善する(例えば、オブジェクトの型がプロンプトの補助入力として指定されたときのオブジェクト素材)。
このような補助入力は、言語のみの推論よりも視覚的推論の寄与をアブレーションし、測定することができる。
これらの評価を用いて、VLMが、追加のトレーニングや文脈内学習なしにどのようにアプローチできるか、大規模なObjaverseデータセット上での人間検証型およびマテリアルアノテーションの品質を示す。
関連論文リスト
- Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and
Context-Aware Visual Speech Processing [61.95652444767649]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
VSP-LLMは15時間のラベル付きデータでより効果的に唇の動きを認識・翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - GRAFFORD: A Benchmark Dataset for Testing the Knowledge of Object
Affordances of Language and Vision Models [7.242042826906371]
事前学習言語モデル(LM)と事前学習型ビジョンランゲージモデル(VLM)における対象値の知識について検討する。
トランスフォーマーベースの大規模事前学習言語モデル(PTLM)は、大量の未ラベルテキストから文脈表現を学習する。
本研究は,言語基盤タスクのための新しいデータセットを提供し,LM能力に関する知見を提示する。
論文 参考訳(メタデータ) (2024-02-20T10:23:00Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned
Language Models [77.77951795883698]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
まず,視覚的質問応答,言語からのオブジェクトローカライゼーション,幻覚などの特性を探索する課題セットを対象とする,標準化された評価スイートをコンパイルする。
我々は、事前訓練された視覚表現を含むキー設計軸に沿ったVLMを厳格に調査し、ベース対インストラクション言語モデルを用いたトレードオフの定量化を行う。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language
Pre-training and Open-Vocabulary Object Detection [24.48128633414131]
画像テキストペアと純粋なオブジェクト検出データから学習した既存のモデルから視覚的グラウンドティング能力を利用するゼロショット手法を提案する。
提案手法は,RefCOCO/+/gデータセットにおいて,他のゼロショット法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-22T20:14:55Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for
Vision-Language Models [66.37493420911979]
視覚言語モデル(LVLM)に入力がどのように提示されるかは、ゼロショットモデルの性能に大きな影響を与える可能性がある。
本稿では,LVLMをキャプタと推論器として用い,画像の健全な詳細を抽出するフレームワークであるRephrase, Augment and Reason(RepARe)を紹介する。
VQAv2ではRepAReが3.85%(絶対)増加し,A-OKVQAでは6.41%向上することを示した。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Towards Addressing the Misalignment of Object Proposal Evaluation for
Vision-Language Tasks via Semantic Grounding [36.03994217853856]
Vision-Language (VL)タスクで生成されたオブジェクト提案のパフォーマンスは、現在利用可能なすべてのアノテーションで評価されている。
我々の研究は、この現象の研究として役立ち、セマンティックグラウンドディングの有効性を探求し、その効果を緩和する。
提案手法は一貫性があり,画像キャプションの指標と人間のアノテーションによって選択されたアノテーションとのアライメントが大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2023-09-01T02:19:41Z) - Reflection Invariance Learning for Few-shot Semantic Segmentation [53.20466630330429]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーション付きサポートイメージを持つクエリイメージにおいて、目に見えないクラスのオブジェクトをセグメントすることを目的としている。
本稿では,マルチビューマッチング方式でリフレクション不変性をマイニングするための,新しい数ショットセグメンテーションフレームワークを提案する。
PASCAL-$5textiti$とCOCO-$20textiti$データセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-01T15:14:58Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced
Annotators [64.04060110775062]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
LLMをより良いアノテータにするために、我々は2段階のアプローチ「説明-then-annotate」を提案する。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。