Fugu-MT 論文翻訳(概要): Frozen Transformers in Language Models Are Effective Visual Encoder Layers

論文の概要: Frozen Transformers in Language Models Are Effective Visual Encoder Layers

arxiv url: http://arxiv.org/abs/2310.12973v2
Date: Mon, 6 May 2024 15:45:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-08 00:35:16.022173
Title: Frozen Transformers in Language Models Are Effective Visual Encoder Layers
Title（参考訳）: 言語モデルにおける凍結変換器は効果的なビジュアルエンコーダ層である
Authors: Ziqi Pang, Ziyang Xie, Yunze Man, Yu-Xiong Wang,
Abstract要約: 大きな言語モデル(LLM)は、言語がないときに純粋に視覚的なタスクに対して驚くほど強力なエンコーダである。我々の研究は、コンピュータビジョンタスクにLLMを活用することの限界を推し進めている。視覚符号化における事前学習LLMの有効性を説明するために,情報フィルタリング仮説を提案する。
参考スコア（独自算出の注目度）: 26.759544759745648
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This paper reveals that large language models (LLMs), despite being trained solely on textual data, are surprisingly strong encoders for purely visual tasks in the absence of language. Even more intriguingly, this can be achieved by a simple yet previously overlooked strategy -- employing a frozen transformer block from pre-trained LLMs as a constituent encoder layer to directly process visual tokens. Our work pushes the boundaries of leveraging LLMs for computer vision tasks, significantly departing from conventional practices that typically necessitate a multi-modal vision-language setup with associated language prompts, inputs, or outputs. We demonstrate that our approach consistently enhances performance across a diverse range of tasks, encompassing pure 2D and 3D visual recognition tasks (e.g., image and point cloud classification), temporal modeling tasks (e.g., action recognition), non-semantic tasks (e.g., motion forecasting), and multi-modal tasks (e.g., 2D/3D visual question answering and image-text retrieval). Such improvements are a general phenomenon, applicable to various types of LLMs (e.g., LLaMA and OPT) and different LLM transformer blocks. We additionally propose the information filtering hypothesis to explain the effectiveness of pre-trained LLMs in visual encoding -- the pre-trained LLM transformer blocks discern informative visual tokens and further amplify their effect. This hypothesis is empirically supported by the observation that the feature activation, after training with LLM transformer blocks, exhibits a stronger focus on relevant regions. We hope that our work inspires new perspectives on utilizing LLMs and deepening our understanding of their underlying mechanisms. Code is available at https://github.com/ziqipang/LM4VisualEncoding.
Abstract（参考訳）: 本稿では,大規模言語モデル (LLM) がテキストデータのみに訓練されているにもかかわらず,言語が存在しない場合,純粋に視覚的なタスクに対して驚くほど強力なエンコーダであることを明らかにする。さらに興味深いことに、これは、これまで見過ごされていた単純な戦略によって実現される - 事前にトレーニングされたLCMから凍結されたトランスフォーマーブロックを構成エンコーダ層として使用して、ビジュアルトークンを直接処理する。我々の研究は、コンピュータビジョンタスクにLLMを利用することの限界を押し上げ、通常、関連する言語プロンプト、インプット、アウトプットを伴うマルチモーダル視覚言語セットアップを必要とする慣行からかなり離れている。提案手法は、純粋な2次元および3次元視覚認識タスク(画像と点のクラウド分類)、時間的モデリングタスク(アクション認識)、非意味タスク(例えば、動き予測)、マルチモーダルタスク(例えば、2D/3D視覚質問応答と画像-テキスト検索)を含む、多様なタスクにおけるパフォーマンスを一貫して向上することを示す。このような改善は、様々な種類のLLM(例えば、LLaMA、OPT)と異なるLLMトランスブロックに適用できる一般的な現象である。また、情報フィルタリング仮説を提案し、事前学習したLCMが視覚符号化における有効性を説明するとともに、情報化による視覚トークンの識別をブロックし、その効果をさらに増幅する。この仮説は、LLMトランスフォーマーブロックを用いたトレーニングの後、機能活性化が関連する領域に強く焦点を絞っているという観察によって実証的に支持されている。 LLMの活用と、その基盤となるメカニズムの理解を深める上で、我々の研究が新たな視点を刺激することを期待します。コードはhttps://github.com/ziqipang/LM4VisualEncoding.comで入手できる。

関連論文リスト

Language Models Can See Better: Visual Contrastive Decoding For LLM Multimodal Reasoning [15.877954360180468]
MLLM(Multimodal Large Language Models)のトレーニングは、リソース集約型であり、様々なトレーニング制限によって制限される。本稿では,MVCD(Modular-based Visual Contrastive Decoding)フレームワークを提案する。我々のフレームワークは、LLMのICL(In-Context Learning)機能と、提案した視覚コントラスト・サンプル・デコーディング(CED)を活用している。その結果、モデル精度が一貫した改善を示し、復号化戦略における有効成分をうまく説明できた。
論文参考訳（メタデータ） (2025-02-17T12:47:00Z)
Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。 DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。 DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文参考訳（メタデータ） (2024-11-29T11:24:23Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding [67.63933036920012]
プロキシエンコーディングやジオメトリエンコーディングを含む既存のメソッドには、オブジェクトの位置をエンコードするための追加構文が含まれている。この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。 ClawMachineはビジュアル参照とグラウンドを自動回帰形式に統合し、デコーダのみのアーキテクチャで学習する。
論文参考訳（メタデータ） (2024-06-17T08:39:16Z)
Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement [93.73648674743097]
ビジュアルプログラム合成は、構成型コンピュータビジョンタスクのための大規模言語モデルの推論能力を利用するための有望なアプローチである。それまでの作業では、視覚プログラムを合成するために、凍結LDMを使用した数発のプロンプトを使用していた。トレーニング用ビジュアルプログラムのデータセットは存在せず、ビジュアルプログラムデータセットの取得は簡単にクラウドソーシングできない。
論文参考訳（メタデータ） (2024-04-06T13:25:00Z)
ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。 LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文参考訳（メタデータ） (2024-03-30T10:11:26Z)
Aligned with LLM: a new multi-modal training paradigm for encoding fMRI activity in visual cortex [4.57590454144072]
近年,事前訓練された大規模言語モデル(LLM)の人気が高まっている。本稿では,視覚野のfMRI活性を符号化し,LLMと整合した新しいマルチモーダルトレーニングパラダイムを提案する。
論文参考訳（メタデータ） (2024-01-08T12:30:23Z)
InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。 InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-11-12T09:58:16Z)
VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。 VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文参考訳（メタデータ） (2023-05-22T17:51:22Z)
LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation [51.08810811457617]
LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
論文参考訳（メタデータ） (2023-05-19T07:44:39Z)
Towards Versatile and Efficient Visual Knowledge Integration into Pre-trained Language Models with Cross-Modal Adapters [16.44174900423759]
我々は,事前学習された視覚言語モデルで学習した視覚的およびテキスト的知識を活用するために,新しいプラグイン・アンド・プレイ・モジュールであるX-adapterを提案する。提案手法は,オブジェクト指向推論および自然言語理解タスクの性能を大幅に向上させることができる。
論文参考訳（メタデータ） (2023-05-12T10:08:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。