Fugu-MT 論文翻訳(概要): VinVL: Revisiting Visual Representations in Vision-Language Models

論文の概要: VinVL: Revisiting Visual Representations in Vision-Language Models

arxiv url: http://arxiv.org/abs/2101.00529v2
Date: Wed, 10 Mar 2021 01:27:16 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-13 07:24:32.645266
Title: VinVL: Revisiting Visual Representations in Vision-Language Models
Title（参考訳）: VinVL:視覚言語モデルにおける視覚表現の再検討
Authors: Pengchuan Zhang, Xiujun Li, Xiaowei Hu, Jianwei Yang, Lei Zhang, Lijuan Wang, Yejin Choi, Jianfeng Gao
Abstract要約: 画像のオブジェクト中心表現を提供するための改良されたオブジェクト検出モデルを開発した。新しい視覚機能は、すべての視覚言語(VL)タスクのパフォーマンスを大幅に改善する。新しいオブジェクト検出モデルを公開します。
参考スコア（独自算出の注目度）: 96.39332942534368
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents a detailed study of improving visual representations for vision language (VL) tasks and develops an improved object detection model to provide object-centric representations of images. Compared to the most widely used \emph{bottom-up and top-down} model \cite{anderson2018bottom}, the new model is bigger, better-designed for VL tasks, and pre-trained on much larger training corpora that combine multiple public annotated object detection datasets. Therefore, it can generate representations of a richer collection of visual objects and concepts. While previous VL research focuses mainly on improving the vision-language fusion model and leaves the object detection model improvement untouched, we show that visual features matter significantly in VL models. In our experiments we feed the visual features generated by the new object detection model into a Transformer-based VL fusion model \oscar \cite{li2020oscar}, and utilize an improved approach \short\ to pre-train the VL model and fine-tune it on a wide range of downstream VL tasks. Our results show that the new visual features significantly improve the performance across all VL tasks, creating new state-of-the-art results on seven public benchmarks. We will release the new object detection model to public.
Abstract（参考訳）: 本稿では、視覚言語(VL)タスクの視覚表現を改善するための詳細な研究を行い、画像のオブジェクト中心表現を提供するための改善されたオブジェクト検出モデルを開発する。最も広く使われている \emph{bottom-up and top-down} モデルである \cite{anderson2018bottom} と比較すると、新しいモデルはより大きく、VLタスクによく設計されており、複数のパブリックアノテーション付きオブジェクト検出データセットを組み合わせた、はるかに大きなトレーニングコーパスで事前訓練されている。したがって、よりリッチな視覚オブジェクトと概念の集合の表現を生成することができる。従来のVL研究は、視覚言語融合モデルの改善とオブジェクト検出モデルの改善に重点を置いていたが、VLモデルでは視覚的特徴が著しく重要であることを示す。実験では,新しいオブジェクト検出モデルによって生成された視覚的特徴をトランスフォーマーベースのVL融合モデルである \oscar \cite{li2020oscar} に供給し,改良されたアプローチ \short\ を用いてVLモデルを事前学習し,広範囲の下流VLタスクで微調整する。その結果,新しい視覚的特徴は全VLタスクのパフォーマンスを著しく改善し,7つの公開ベンチマークで最新の結果が得られた。新しいオブジェクト検出モデルを公開します。

関連論文リスト

CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文参考訳（メタデータ） (2025-03-27T22:23:04Z)
ViTOC: Vision Transformer and Object-aware Captioner [0.0]
ViTOCは画像キャプションのための視覚言語モデルであり、生成された記述の正確さと多様性の課題に対処する。事前訓練された視覚モデルパラメータを利用することで、ViTOCは効率的なエンドツーエンドトレーニングを実現する。
論文参考訳（メタデータ） (2024-11-09T13:13:49Z)
ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文参考訳（メタデータ） (2024-09-23T17:47:59Z)
Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution [82.38677987249348]
本稿では,従来の視覚処理における既定分解能アプローチを再定義するQwen2-VLシリーズを提案する。 Qwen2-VLでは、さまざまな解像度の画像を異なる数のビジュアルトークンに動的に処理できるNaive Dynamic Resolutionメカニズムが導入されている。また、Multimodal Rotary Position Embedding (M-RoPE)を統合し、テキスト、画像、ビデオ間で位置情報の効果的な融合を容易にする。
論文参考訳（メタデータ） (2024-09-18T17:59:32Z)
Evaluation and Comparison of Visual Language Models for Transportation Engineering Problems [16.49637074299509]
我々は、視覚に基づく輸送工学タスクのための最先端のビジョン言語モデル(VLM)について検討した。画像分類作業は渋滞検出と亀裂識別を伴い, 物体検出ではヘルメット違反が同定された。我々はこれらのVLMモデルの性能を評価するために、CLIP、BLIP、OWL-ViT、Llava-Next、およびクローズソースGPT-4oといったオープンソースモデルを適用した。
論文参考訳（メタデータ） (2024-09-03T20:24:37Z)
Harnessing Vision-Language Pretrained Models with Temporal-Aware Adaptation for Referring Video Object Segmentation [34.37450315995176]
現在の参照ビデオオブジェクト(RVOS)メソッドは通常、バックボーンとして独立して事前訓練された視覚と言語モデルを使用する。画素レベルの予測に事前学習した表現を適応させる時間認識型プロンプトチューニング手法を提案する。提案手法は最先端のアルゴリズムに対して良好に動作し,強力な一般化能力を示す。
論文参考訳（メタデータ） (2024-05-17T08:14:22Z)
Improving Commonsense in Vision-Language Models via Knowledge Graph Riddles [83.41551911845157]
本稿では,近年普及している視覚言語モデル(VL)のコモンセンス能力の解析と改善に焦点をあてる。我々は、よりスケーラブルな戦略、すなわち、CommonsensE機能のためのkNowledgeグラフ線形化によるデータ拡張を提案する(DANCE)。より優れたコモンセンス評価のために,検索に基づく最初のコモンセンス診断ベンチマークを提案する。
論文参考訳（メタデータ） (2022-11-29T18:59:59Z)
Teaching Structured Vision&Language Concepts to Vision&Language Models [46.344585368641006]
SVLC(Structured Vision&Language Concepts)の概念について紹介する。 SVLCは、オブジェクト属性、関係、および、テキストに存在し、画像で見える状態を含む。本稿では,VLモデルのSVLC理解を高めるための,よりエレガントなデータ駆動手法を提案する。
論文参考訳（メタデータ） (2022-11-21T18:54:10Z)
PEVL: Position-enhanced Pre-training and Prompt Tuning for Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。 PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。 PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文参考訳（メタデータ） (2022-05-23T10:17:53Z)
e-ViL: A Dataset and Benchmark for Natural Language Explanations in Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文参考訳（メタデータ） (2021-05-08T18:46:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。