Fugu-MT 論文翻訳(概要): An Introduction to Vision-Language Modeling

論文の概要: An Introduction to Vision-Language Modeling

arxiv url: http://arxiv.org/abs/2405.17247v1
Date: Mon, 27 May 2024 15:01:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-28 14:53:29.027875
Title: An Introduction to Vision-Language Modeling
Title（参考訳）: 視覚言語モデリング入門
Authors: Florian Bordes, Richard Yuanzhe Pang, Anurag Ajay, Alexander C. Li, Adrien Bardes, Suzanne Petryk, Oscar Mañas, Zhiqiu Lin, Anas Mahmoud, Bargav Jayaraman, Mark Ibrahim, Melissa Hall, Yunyang Xiong, Jonathan Lebensold, Candace Ross, Srihari Jayakumar, Chuan Guo, Diane Bouchacourt, Haider Al-Tahan, Karthik Padthe, Vasu Sharma, Hu Xu, Xiaoqing Ellen Tan, Megan Richards, Samuel Lavoie, Pietro Astolfi, Reyhane Askari Hemmat, Jun Chen, Kushal Tirumala, Rim Assouel, Mazda Moayeri, Arjang Talattof, Kamalika Chaudhuri, Zechun Liu, Xilun Chen, Quentin Garrido, Karen Ullrich, Aishwarya Agrawal, Kate Saenko, Asli Celikyilmaz, Vikas Chandra,
Abstract要約: 視覚言語モデル(VLM)の応用は、我々の技術との関係に大きな影響を与えるだろう。 VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
参考スコア（独自算出の注目度）: 128.6223984157515
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Following the recent popularity of Large Language Models (LLMs), several attempts have been made to extend them to the visual domain. From having a visual assistant that could guide us through unfamiliar environments to generative models that produce images using only a high-level text description, the vision-language model (VLM) applications will significantly impact our relationship with technology. However, there are many challenges that need to be addressed to improve the reliability of those models. While language is discrete, vision evolves in a much higher dimensional space in which concepts cannot always be easily discretized. To better understand the mechanics behind mapping vision to language, we present this introduction to VLMs which we hope will help anyone who would like to enter the field. First, we introduce what VLMs are, how they work, and how to train them. Then, we present and discuss approaches to evaluate VLMs. Although this work primarily focuses on mapping images to language, we also discuss extending VLMs to videos.
Abstract（参考訳）: 近年のLarge Language Models (LLM) の人気に続き、視覚領域に拡張する試みがいくつか行われている。慣れ親しんだ環境から、高レベルのテキスト記述だけで画像を生成する生成モデルまで、視覚言語モデル(VLM)のアプリケーションは、テクノロジーとの関係に大きな影響を与えます。しかし、これらのモデルの信頼性を改善するためには、多くの課題に対処する必要がある。言語は離散的であるが、概念を常に容易に区別できないような、より高次元空間において、視覚は進化する。視覚を言語にマッピングするメカニズムをより深く理解するために、私たちはVLMを紹介します。まず、VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。そこで本研究では,VLMの評価手法について論じる。本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。

関連論文リスト

Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文参考訳（メタデータ） (2025-11-21T21:36:48Z)
Hidden in plain sight: VLMs overlook their visual representations [48.83628674170634]
視覚言語モデル(VLM)と視覚エンコーダを比較し、これらのモダリティをまたいで統合する能力を理解する。 VLMは視覚エンコーダよりも著しく性能が悪く、近距離性能に低下することがわかった。
論文参考訳（メタデータ） (2025-06-09T17:59:54Z)
A Survey on Efficient Vision-Language Models [0.6597195879147555]
視覚言語モデル(VLM)は視覚情報とテキスト情報を統合し、画像キャプションや視覚的質問応答などの幅広いアプリケーションを可能にする。リアルタイムアプリケーションには高い計算要求が課題となる。これにより、効率的な視覚言語モデルの開発に焦点が当てられている。
論文参考訳（メタデータ） (2025-04-13T21:12:24Z)
Visual Large Language Models for Generalized and Specialized Applications [39.00785227266089]
ビジュアル言語モデル(VLM)は、視覚と言語のための統合的な埋め込み空間を学ぶための強力なツールとして登場した。強力な推論とマルチタスク能力を示す大規模言語モデルに触発された視覚的大規模言語モデル(VLLM)は、汎用VLMの構築に注目が集まっている。
論文参考訳（メタデータ） (2025-01-06T05:15:59Z)
Probing Visual Language Priors in VLMs [51.016683265437536]
我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。 ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-31T17:54:29Z)
HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding [91.0552157725366]
本稿では,HoVLEという新しい高性能モノリシックVLMを提案する。視覚的入力とテキスト入力を共有空間に変換し、LLMはテキストと同じ方法で画像を処理できる。実験の結果,HoVLEは様々なベンチマークにおいて,主要な構成モデルに近い性能が得られることがわかった。
論文参考訳（メタデータ） (2024-12-20T18:59:59Z)
Can Vision Language Models Learn from Visual Demonstrations of Ambiguous Spatial Reasoning? [7.827653846113951]
大規模視覚言語モデル(VLM)は多くのコンピュータビジョンタスクの最先端技術となっている。本稿では,空間的視覚曖昧性タスク (SVAT) と呼ばれる新しいベンチマークを提案する。
論文参考訳（メタデータ） (2024-09-25T16:45:02Z)
How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文参考訳（メタデータ） (2024-08-07T17:59:40Z)
Can We Talk Models Into Seeing the World Differently? [29.55195958914328]
視覚言語モデル(VLM)は、言語プロンプトを通じて視覚コンテンツにアクセスする直感的な方法を提供する。我々は、特によく研究されている視覚のみの偏見(テクスチャ対形状偏見)と、グローバル情報に対する局所的な優位性)について検討する。驚くべきことに、マルチモダリティだけで、モデルの振る舞いに重要な影響を与えることが証明されます。
論文参考訳（メタデータ） (2024-03-14T09:07:14Z)
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。強力な視覚能力を備え、ViT-22Bの代替となる。
論文参考訳（メタデータ） (2023-12-21T18:59:31Z)
Large Language Models are Visual Reasoning Coordinators [144.67558375045755]
視覚的推論のために複数の視覚言語モデルを協調する新しいパラダイムを提案する。提案手法は,視覚的質問応答における最先端性能を実現するため,命令チューニングの変種であるCola-FTを提案する。また,テキスト内学習の変種であるCola-Zeroは,ゼロおよび少数ショット設定で競合性能を示すことを示す。
論文参考訳（メタデータ） (2023-10-23T17:59:31Z)
Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文参考訳（メタデータ） (2023-09-09T03:01:38Z)
VLMAE: Vision-Language Masked Autoencoder [21.97700040013084]
視覚言語事前学習のための視覚言語マスク付きオートエンコーダフレームワーク(VLMAE)を提案する。 VLMAEは視覚的生成学習を採用しており、モデルが細粒度で偏りのない特徴を取得するのを容易にする。
論文参考訳（メタデータ） (2022-08-19T14:39:18Z)
Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文参考訳（メタデータ） (2022-05-20T13:41:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。