Fugu-MT 論文翻訳(概要): Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language

論文の概要: Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language

arxiv url: http://arxiv.org/abs/2306.16410v1
Date: Wed, 28 Jun 2023 17:57:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-29 13:17:31.606538
Title: Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language
Title（参考訳）: 見える言語モデルに向けて:自然言語レンズによるコンピュータビジョン
Authors: William Berrios, Gautam Mittal, Tristan Thrush, Douwe Kiela, Amanpreet Singh
Abstract要約: 大規模言語モデル(LLM)のパワーを活用して,コンピュータビジョン問題に対処するためのモジュール型アプローチであるLENSを提案する。我々のシステムは言語モデルを用いて、独立かつ高度に記述された視覚モジュールの集合からの出力を推論する。我々は、ゼロショットや少数ショットのオブジェクト認識のような純粋コンピュータビジョン設定に対するアプローチと、視覚と言語の問題について評価する。
参考スコア（独自算出の注目度）: 38.37066741766843
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose LENS, a modular approach for tackling computer vision problems by leveraging the power of large language models (LLMs). Our system uses a language model to reason over outputs from a set of independent and highly descriptive vision modules that provide exhaustive information about an image. We evaluate the approach on pure computer vision settings such as zero- and few-shot object recognition, as well as on vision and language problems. LENS can be applied to any off-the-shelf LLM and we find that the LLMs with LENS perform highly competitively with much bigger and much more sophisticated systems, without any multimodal training whatsoever. We open-source our code at https://github.com/ContextualAI/lens and provide an interactive demo.
Abstract（参考訳）: 大規模言語モデル(LLM)のパワーを活用することで,コンピュータビジョン問題に対処するためのモジュール型アプローチであるLENSを提案する。本システムでは、画像に関する徹底的な情報を提供する独立かつ記述性の高い視覚モジュール群からの出力を推論するために言語モデルを用いる。我々は,ゼロショットや少数ショットの物体認識などの純粋コンピュータビジョンの設定や,視覚や言語の問題に対するアプローチを評価する。 LENS は市販の LLM にも適用可能であり,LENS を用いた LLM は,より大規模で高度なシステムで高い競争力を発揮する。私たちはコードをhttps://github.com/contextualai/lensでオープンソースにし、インタラクティブなデモを提供します。

関連論文リスト

Enhancing Perception Capabilities of Multimodal LLMs with Training-Free Fusion [40.56646959926701]
マルチモーダルLLM (Multimodal LLMs) は、視覚エンコーダと言語モデルとの整合による視覚能力を備えた言語モデルである。 MLLMの視覚知覚を高める既存の方法は、しばしばより強力な視覚エンコーダを設計する。市販のMLLMから複数の視覚エンコーダを効率的に活用する新しい統合フレームワークであるVisionFuseを紹介する。
論文参考訳（メタデータ） (2024-12-02T09:02:28Z)
SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs [40.74693126923826]
MLLM(Multimodal Large Language Models)は近年,知覚能力や推論能力が著しく向上している。イメージレベルの監督を施したトレーニングアダプタは、しばしば重大なミスアライメントをもたらす。本稿では,視覚言語による事前学習モデルを活用したトークンレベルのアライメント手法であるSupervised Embedding Alignment (SEA)を紹介する。
論文参考訳（メタデータ） (2024-08-21T17:58:02Z)
LM4LV: A Frozen Large Language Model for Low-level Vision Tasks [25.3601306724822]
$textbfLM4LV$は、大規模な言語モデルで、マルチモーダルデータや事前データなしで、さまざまな低レベルの視覚タスクを解決できるフレームワークである。これは低レベルのビジョンにおけるLLMの強い可能性を示し、MLLMと低レベルのビジョンタスクの間のギャップを埋める。
論文参考訳（メタデータ） (2024-05-24T17:25:00Z)
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-03-05T13:45:46Z)
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。強力な視覚能力を備え、ViT-22Bの代替となる。
論文参考訳（メタデータ） (2023-12-21T18:59:31Z)
VCoder: Versatile Vision Encoders for Multimodal Large Language Models [46.95488342139727]
MLLM(Multimodal Large Language Models)は近年,視覚言語タスクにおける優れたパフォーマンスを実現している。しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。 We propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs。
論文参考訳（メタデータ） (2023-12-21T18:49:47Z)
Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。 MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文参考訳（メタデータ） (2023-12-03T16:39:36Z)
VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks [81.32968995346775]
VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
論文参考訳（メタデータ） (2023-05-18T17:59:42Z)
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文参考訳（メタデータ） (2023-04-27T13:27:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。