Fugu-MT 論文翻訳(概要): VL-Fields: Towards Language-Grounded Neural Implicit Spatial Representations

論文の概要: VL-Fields: Towards Language-Grounded Neural Implicit Spatial Representations

arxiv url: http://arxiv.org/abs/2305.12427v2
Date: Thu, 25 May 2023 08:38:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 10:42:07.892011
Title: VL-Fields: Towards Language-Grounded Neural Implicit Spatial Representations
Title（参考訳）: VL-Fields:言語学習型ニューラルインプシット空間表現を目指して
Authors: Nikolaos Tsagkas, Oisin Mac Aodha and Chris Xiaoxuan Lu
Abstract要約: オープン語彙のセマンティッククエリを可能にする暗黙空間表現であるVisual-Language Fields (VL-Fields)を提案する。我々のモデルは、言語駆動セグメンテーションモデルから情報を抽出することにより、視覚言語訓練された潜在特徴を持つシーンの幾何学を符号化し、融合する。
参考スコア（独自算出の注目度）: 15.265341472149034
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Visual-Language Fields (VL-Fields), a neural implicit spatial representation that enables open-vocabulary semantic queries. Our model encodes and fuses the geometry of a scene with vision-language trained latent features by distilling information from a language-driven segmentation model. VL-Fields is trained without requiring any prior knowledge of the scene object classes, which makes it a promising representation for the field of robotics. Our model outperformed the similar CLIP-Fields model in the task of semantic segmentation by almost 10%.
Abstract（参考訳）: オープン語彙のセマンティッククエリを可能にする暗黙空間表現であるVisual-Language Fields (VL-Fields)を提案する。我々のモデルは、言語駆動セグメンテーションモデルから情報を抽出することにより、視覚言語訓練された潜在特徴を持つシーンの幾何学を符号化し、融合する。 VL-Fieldsはシーンオブジェクトクラスに関する事前の知識を必要とせずに訓練されるため、ロボット工学の分野において有望な表現となる。セマンティクスセグメンテーションのタスクにおいて,我々のモデルは類似したクリップフィールドモデルを約10%上回った。

関連論文リスト

Improving Large Vision-Language Models' Understanding for Field Data [62.917026891829025]
本研究では、大規模ビジョン言語モデルのフィールドデータ理解を改善するためのフレームワークであるFieldLVLMを紹介する。 FieldLVLMは、フィールド対応言語生成戦略とデータ圧縮マルチモーダルモデルチューニングの2つの主要コンポーネントから構成される。新たに提案されたベンチマークデータセットの実験結果から、フィールドLVLMは、科学的なフィールドデータを含むタスクにおいて、既存の手法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2025-07-24T11:28:53Z)
Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文参考訳（メタデータ） (2024-11-20T13:34:22Z)
Pushing the Limits of Vision-Language Models in Remote Sensing without Human Annotations [5.065947993017157]
本研究では、画像復号化機械学習モデルを用いて、視覚言語データセットをキュレートする手法を提案する。約960万の視覚言語対のデータセットをVHR画像で収集しました。結果として得られたモデルは、公開可能なビジョン言語データセットを活用できないものよりも優れていた。
論文参考訳（メタデータ） (2024-09-11T06:36:08Z)
Harnessing Vision-Language Pretrained Models with Temporal-Aware Adaptation for Referring Video Object Segmentation [34.37450315995176]
現在の参照ビデオオブジェクト(RVOS)メソッドは通常、バックボーンとして独立して事前訓練された視覚と言語モデルを使用する。画素レベルの予測に事前学習した表現を適応させる時間認識型プロンプトチューニング手法を提案する。提案手法は最先端のアルゴリズムに対して良好に動作し,強力な一般化能力を示す。
論文参考訳（メタデータ） (2024-05-17T08:14:22Z)
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-03-05T13:45:46Z)
Localized Symbolic Knowledge Distillation for Visual Commonsense Models [150.18129140140238]
ローカル化されたVisual Commonsenseモデルを構築し、ユーザが入力として(複数の)リージョンを指定できるようにします。大規模言語モデルから局所的なコモンセンス知識を抽出してモデルを訓練する。局所化コモンセンスコーパスのトレーニングにより,既存の視覚言語モデルを抽出し,リファレンス・アズ・インプット・インタフェースをサポートできることが判明した。
論文参考訳（メタデータ） (2023-12-08T05:23:50Z)
MetaVL: Transferring In-Context Learning Ability From Language Models to Vision-Language Models [74.89629463600978]
視覚言語領域では、ほとんどの大規模事前学習された視覚言語モデルは、文脈内学習を行う能力を持っていない。本稿では,言語領域から視覚領域へコンテキスト内学習能力を移行できるのか,という興味深い仮説を考察する。
論文参考訳（メタデータ） (2023-06-02T07:21:03Z)
IFSeg: Image-free Semantic Segmentation via Vision-Language Model [67.62922228676273]
目的は,対象のセマンティックなカテゴリの集合にのみ依存するセマンティックセマンティックセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなタスクを実現することである。本研究では、ランダムな意味圏の2次元マップと、対応する単語トークンの別のマップを作成することで、この人工的なトレーニングデータを構築する。本モデルでは,本課題の効果的なベースラインを確立するだけでなく,既存手法と比較して高い性能を示す。
論文参考訳（メタデータ） (2023-03-25T08:19:31Z)
Teaching Structured Vision&Language Concepts to Vision&Language Models [46.344585368641006]
SVLC(Structured Vision&Language Concepts)の概念について紹介する。 SVLCは、オブジェクト属性、関係、および、テキストに存在し、画像で見える状態を含む。本稿では,VLモデルのSVLC理解を高めるための,よりエレガントなデータ駆動手法を提案する。
論文参考訳（メタデータ） (2022-11-21T18:54:10Z)
PEVL: Position-enhanced Pre-training and Prompt Tuning for Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。 PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。 PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文参考訳（メタデータ） (2022-05-23T10:17:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。