Fugu-MT 論文翻訳(概要): Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task Instruction Tuning

論文の概要: Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task Instruction Tuning

arxiv url: http://arxiv.org/abs/2310.08166v3
Date: Tue, 31 Oct 2023 17:51:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 11:49:33.054286
Title: Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task Instruction Tuning
Title（参考訳）: Ziya-Visual:マルチタスクインストラクションチューニングによるバイリンガル大視野モデル
Authors: Junyu Lu, Dixiang Zhang, Xiaojun Wu, Xinyu Gao, Ruyi Gan, Jiaxing Zhang, Yan Song, Pingjian Zhang
Abstract要約: バイリンガルな大規模視覚言語モデル(LVLM)の集合であるZiya-Visualシリーズを紹介する。我々のモデルは BLIP-2 から Querying Transformer を採用し,最適化手法のさらなる支援を探求している。さらに,多モーダルシナリオにおけるGPT-4の理解能力を刺激し,収集した英語画像テキストデータセットを中国語に翻訳する。
参考スコア（独自算出の注目度）: 27.544311403607786
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent advancements enlarge the capabilities of large language models (LLMs) in zero-shot image-to-text generation and understanding by integrating multi-modal inputs. However, such success is typically limited to English scenarios due to the lack of large-scale and high-quality non-English multi-modal resources, making it extremely difficult to establish competitive counterparts in other languages. In this paper, we introduce the Ziya-Visual series, a set of bilingual large-scale vision-language models (LVLMs) designed to incorporate visual semantics into LLM for multi-modal dialogue. Composed of Ziya-Visual-Base and Ziya-Visual-Chat, our models adopt the Querying Transformer from BLIP-2, further exploring the assistance of optimization schemes such as instruction tuning, multi-stage training and low-rank adaptation module for visual-language alignment. In addition, we stimulate the understanding ability of GPT-4 in multi-modal scenarios, translating our gathered English image-text datasets into Chinese and generating instruction-response through the in-context learning method. The experiment results demonstrate that compared to the existing LVLMs, Ziya-Visual achieves competitive performance across a wide range of English-only tasks including zero-shot image-text retrieval, image captioning, and visual question answering. The evaluation leaderboard accessed by GPT-4 also indicates that our models possess satisfactory image-text understanding and generation capabilities in Chinese multi-modal scenario dialogues. Code, demo and models are available at ~\url{https://huggingface.co/IDEA-CCNL/Ziya-BLIP2-14B-Visual-v1}.
Abstract（参考訳）: 近年,画像からテキストへのゼロショット生成やマルチモーダル入力の統合による理解において,大規模言語モデル(LLM)の機能向上が進んでいる。しかし、このような成功は、大規模で高品質の非英語のマルチモーダルリソースが不足しているため、英語のシナリオに限られており、他の言語との競合を確立することは極めて困難である。本稿では,マルチモーダル対話のための視覚意味論をLLMに組み込んだバイリンガルな大規模視覚言語モデル(LVLM)であるZiya-Visualシリーズを紹介する。 ziya-visual-baseとziya-visual-chatで構成され、blip-2からのクエリ変換を採用し、命令チューニング、マルチステージトレーニング、視覚言語アライメントのための低ランク適応モジュールといった最適化スキームの支援をさらに探っている。さらに,マルチモーダルシナリオにおけるGPT-4の理解能力の向上,収集した英語画像テキストデータセットを中国語に翻訳し,インコンテクスト学習手法による命令応答を生成する。実験の結果、既存のLVLMと比較して、Ziya-Visualはゼロショット画像テキスト検索、画像キャプション、視覚的質問応答など、幅広い英語のみのタスクで競争力を発揮することがわかった。 GPT-4でアクセスされた評価リーダーボードは,中国のマルチモーダルシナリオ対話において,良好な画像テキスト理解と生成能力を有することを示す。コード、デモ、モデルは ~\url{https://huggingface.co/IDEA-CCNL/Ziya-BLIP2-14B-Visual-v1} で入手できる。

関連論文リスト

Multilingual Training-Free Remote Sensing Image Captioning [3.5445909595817096]
リモートセンシング画像キャプションに対するトレーニング不要なマルチ言語アプローチを提案する。ドメイン適応型SigLIP2エンコーダを用いて,データストアから関連するキャプションやサンプルを検索する。 10言語にわたる4つのベンチマークデータセットの実験は、我々のアプローチが完全に教師付き英語のみのシステムと競合していることを示している。
論文参考訳（メタデータ） (2025-11-30T13:16:42Z)
uCLIP: Parameter-Efficient Multilingual Extension of Vision-Language Models with Unpaired Data [3.364569898365253]
我々は多言語視覚言語アライメントのための軽量でデータ効率の良いフレームワークを提案する。本手法では,画像テキストペアやテキストペアは必要とせず,事前訓練された画像エンコーダと多言語テキストエンコーダの両方を凍結する。この最小限のトレーニング設定は、監督が限られている言語でも堅牢な多言語アライメントを可能にする。
論文参考訳（メタデータ） (2025-11-17T06:34:49Z)
TowerVision: Understanding and Improving Multilinguality in Vision-Language Models [56.775118098058506]
TowerVisionは、画像テキストとビデオテキストの両方のためのオープンな多言語視覚言語モデルである。微調整中に視覚的、文化的コンテキストを取り入れることで、私たちのモデルは既存のアプローチを超えます。さらなる研究を支援するため、すべてのモデル、データ、トレーニングレシピを公開しています。
論文参考訳（メタデータ） (2025-10-22T17:02:48Z)
jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images [5.753626355995653]
jina-clip-v2は、テキストペア、三つ子、画像-テキストペアで訓練された対照的な視覚言語モデルである。我々は、多言語テキストエンコーダを使用し、29の非英語言語からの多言語テキストを含む訓練データセットを拡張した。我々は、このモデルの性能を評価し、jina-clip-v2が最先端のCLIPモデルよりも顕著に改善されていることを示す。
論文参考訳（メタデータ） (2024-12-11T22:28:12Z)
ICU: Conquering Language Barriers in Vision-and-Language Modeling by Dividing the Tasks into Image Captioning and Language Understanding [1.9906814758497542]
ICUは、V&Lタスクを2段階に分割する: V&Lモデルが英語で画像キャプションを行い、マルチ言語モデル(mLM)がそのキャプションをaltテキストとして取り、言語間理解を行う。 ICUは5つの言語に対して新しい最先端の結果が得られ、残りの言語では同等の結果が得られることを示す。
論文参考訳（メタデータ） (2023-10-19T07:11:48Z)
VLIS: Unimodal Language Models Guide Multimodal Language Generation [23.094728230459125]
VLIS(Importance Smpling weights)として視覚言語モデルを導入する。視覚言語モデルの視覚的条件付け能力と、追加のトレーニングを伴わずに、アンモダルテキストのみの言語モデルの言語理解を組み合わせる。 VLISは、常識理解や複雑なテキスト生成など、様々なタスクにおける視覚言語モデルを改善する。
論文参考訳（メタデータ） (2023-10-15T07:58:52Z)
Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文参考訳（メタデータ） (2023-09-09T03:01:38Z)
Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。この統合により、MLLMの画像のより詳細な理解が促進される。本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文参考訳（メタデータ） (2023-08-25T15:33:47Z)
Bootstrapping Vision-Language Learning with Decoupled Language Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文参考訳（メタデータ） (2023-07-13T21:08:15Z)
PaLI-X: On Scaling up a Multilingual Vision and Language Model [166.9837904115951]
マルチ言語ビジョンと言語モデルであるPaLI-Xをスケールアップする際のトレーニングレシピと結果を示す。我々のモデルは、多種多様な複雑なタスクにおいて、新しいレベルのパフォーマンスを達成する。複雑なカウントや多言語オブジェクト検出といった,トレーニングミックスに明示的に含まれないタスクの出現を観察する。
論文参考訳（メタデータ） (2023-05-29T18:58:38Z)
Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文参考訳（メタデータ） (2023-02-27T18:55:27Z)
Generalizing Multimodal Pre-training into Multilingual via Language Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文参考訳（メタデータ） (2022-05-29T08:53:22Z)
UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。 Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文参考訳（メタデータ） (2021-04-01T08:30:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。