論文の概要: Towards Cross-Lingual Explanation of Artwork in Large-scale Vision Language Models
- arxiv url: http://arxiv.org/abs/2409.01584v1
- Date: Tue, 3 Sep 2024 03:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 03:06:29.130960
- Title: Towards Cross-Lingual Explanation of Artwork in Large-scale Vision Language Models
- Title(参考訳): 大規模視覚言語モデルにおけるアートワークの言語横断的説明に向けて
- Authors: Shintaro Ozaki, Kazuki Hayashi, Yusuke Sakai, Hidetaka Kamigaito, Katsuhiko Hayashi, Taro Watanabe,
- Abstract要約: 本研究では、機械翻訳に頼ることなく、複数の言語で拡張データセットを作成する。
リソース豊富な英語のインストラクションチューニングが、他の言語のパフォーマンスを向上させるかどうかを検討した。
- 参考スコア(独自算出の注目度): 28.716852515539497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the performance of Large-scale Vision Language Models (LVLMs) improves, they are increasingly capable of responding in multiple languages, and there is an expectation that the demand for explanations generated by LVLMs will grow. However, pre-training of Vision Encoder and the integrated training of LLMs with Vision Encoder are mainly conducted using English training data, leaving it uncertain whether LVLMs can completely handle their potential when generating explanations in languages other than English. In addition, multilingual QA benchmarks that create datasets using machine translation have cultural differences and biases, remaining issues for use as evaluation tasks. To address these challenges, this study created an extended dataset in multiple languages without relying on machine translation. This dataset that takes into account nuances and country-specific phrases was then used to evaluate the generation explanation abilities of LVLMs. Furthermore, this study examined whether Instruction-Tuning in resource-rich English improves performance in other languages. Our findings indicate that LVLMs perform worse in languages other than English compared to English. In addition, it was observed that LVLMs struggle to effectively manage the knowledge learned from English data.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)の性能が向上するにつれて、複数の言語で対応できるようになり、LVLMによる説明の需要が増大すると予想されている。
しかし、ヴィジュアルエンコーダの事前訓練とヴィジュアルエンコーダによるLLMの統合訓練は、主に英語のトレーニングデータを用いて行われており、英語以外の言語で説明を生成する際に、LVLMがそれらのポテンシャルを完全に扱えるかどうかは不明である。
さらに、機械翻訳を使用したデータセットを作成する多言語QAベンチマークでは、文化的な違いとバイアスがあり、評価タスクとして使用するための問題が残っている。
これらの課題に対処するため、本研究では、機械翻訳に頼ることなく、複数の言語で拡張データセットを作成する。
次に、ニュアンスや国固有のフレーズを考慮したこのデータセットを用いて、LVLMの生成説明能力を評価した。
さらに,資源豊富な英語の授業チューニングが,他言語のパフォーマンスを向上させるかどうかを検討した。
その結果,LVLMは英語以外の言語では英語に比べて性能が悪くなっていることが示唆された。
さらに、LVLMは英語データから学んだ知識を効果的に管理するのに苦労していることが明らかとなった。
関連論文リスト
- Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - Adapting Multilingual LLMs to Low-Resource Languages with Knowledge Graphs via Adapters [3.7273829129985305]
本稿では,言語から多言語大モデル(LLM)へのグラフ知識の統合について検討する。
我々は、感情分析(SA)および名前付きエンティティ認識(NER)における低リソース言語(LRL)の性能向上のために、言語固有のアダプタを使用している。
構造化グラフ知識が,SA および NER における LRL の多言語 LLM の性能に与える影響を評価する。
論文 参考訳(メタデータ) (2024-07-01T15:56:24Z) - MindMerger: Efficient Boosting LLM Reasoning in non-English Languages [26.334092384176518]
推論能力は大規模言語モデル(LLM)にとって不可欠である
我々は,多言語モデルからLLMと外部言語理解機能を融合したMindMergerを提案する。
MindMergerは、特に低リソース言語において、すべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2024-05-27T17:41:54Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation [64.5862977630713]
本研究では,機械翻訳評価タスクにおいて,Large Language Models (LLM) がソースデータと参照データをどのように活用するかを検討する。
参照情報が評価精度を大幅に向上させるのに対して,意外なことに,ソース情報は時として非生産的である。
論文 参考訳(メタデータ) (2024-01-12T13:23:21Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - El Departamento de Nosotros: How Machine Translated Corpora Affects
Language Models in MRC Tasks [0.12183405753834563]
大規模言語モデル(LM)の事前学習には大量のテキストコーパスが必要である。
下流自然言語処理タスクの微調整に直接翻訳コーパスを適用する際の注意点について検討する。
後処理に伴う慎重なキュレーションにより,性能が向上し,LM全体の堅牢性が向上することを示す。
論文 参考訳(メタデータ) (2020-07-03T22:22:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。