Fugu-MT 論文翻訳(概要): Towards Cross-Lingual Explanation of Artwork in Large-scale Vision Language Models

論文の概要: Towards Cross-Lingual Explanation of Artwork in Large-scale Vision Language Models

arxiv url: http://arxiv.org/abs/2409.01584v1
Date: Tue, 3 Sep 2024 03:42:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 03:06:29.130960
Title: Towards Cross-Lingual Explanation of Artwork in Large-scale Vision Language Models
Title（参考訳）: 大規模視覚言語モデルにおけるアートワークの言語横断的説明に向けて
Authors: Shintaro Ozaki, Kazuki Hayashi, Yusuke Sakai, Hidetaka Kamigaito, Katsuhiko Hayashi, Taro Watanabe,
Abstract要約: 本研究では、機械翻訳に頼ることなく、複数の言語で拡張データセットを作成する。リソース豊富な英語のインストラクションチューニングが、他の言語のパフォーマンスを向上させるかどうかを検討した。
参考スコア（独自算出の注目度）: 28.716852515539497
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As the performance of Large-scale Vision Language Models (LVLMs) improves, they are increasingly capable of responding in multiple languages, and there is an expectation that the demand for explanations generated by LVLMs will grow. However, pre-training of Vision Encoder and the integrated training of LLMs with Vision Encoder are mainly conducted using English training data, leaving it uncertain whether LVLMs can completely handle their potential when generating explanations in languages other than English. In addition, multilingual QA benchmarks that create datasets using machine translation have cultural differences and biases, remaining issues for use as evaluation tasks. To address these challenges, this study created an extended dataset in multiple languages without relying on machine translation. This dataset that takes into account nuances and country-specific phrases was then used to evaluate the generation explanation abilities of LVLMs. Furthermore, this study examined whether Instruction-Tuning in resource-rich English improves performance in other languages. Our findings indicate that LVLMs perform worse in languages other than English compared to English. In addition, it was observed that LVLMs struggle to effectively manage the knowledge learned from English data.
Abstract（参考訳）: 大規模視覚言語モデル(LVLM)の性能が向上するにつれて、複数の言語で対応できるようになり、LVLMによる説明の需要が増大すると予想されている。しかし、ヴィジュアルエンコーダの事前訓練とヴィジュアルエンコーダによるLLMの統合訓練は、主に英語のトレーニングデータを用いて行われており、英語以外の言語で説明を生成する際に、LVLMがそれらのポテンシャルを完全に扱えるかどうかは不明である。さらに、機械翻訳を使用したデータセットを作成する多言語QAベンチマークでは、文化的な違いとバイアスがあり、評価タスクとして使用するための問題が残っている。これらの課題に対処するため、本研究では、機械翻訳に頼ることなく、複数の言語で拡張データセットを作成する。次に、ニュアンスや国固有のフレーズを考慮したこのデータセットを用いて、LVLMの生成説明能力を評価した。さらに,資源豊富な英語の授業チューニングが,他言語のパフォーマンスを向上させるかどうかを検討した。その結果,LVLMは英語以外の言語では英語に比べて性能が悪くなっていることが示唆された。さらに、LVLMは英語データから学んだ知識を効果的に管理するのに苦労していることが明らかとなった。

関連論文リスト

Just Go Parallel: Improving the Multilingual Capabilities of Large Language Models [59.21082876068122]
大規模言語モデル(LLM)は、並列データに対して明示的に訓練されることなく、印象的な翻訳能力を実証している。近年の研究では、トレーニングデータに付随するバイリンガル信号が原因であることが示唆されている。多言語エンコーダベースおよびエンコーダデコーダ言語モデルの多言語能力を高めるために,並列データの有用性を最大化する様々な手法が提案されている。
論文参考訳（メタデータ） (2025-06-16T02:21:15Z)
On the Consistency of Multilingual Context Utilization in Retrieval-Augmented Generation [7.478369203246005]
大規模言語モデル(LLM)を用いた検索言語拡張生成(RAG)は,多言語質問応答タスクにおいて高い性能を示した。多言語RAGでは、検索されたパスは、ユーザが入力したクエリ以外の言語で書くことができる。
論文参考訳（メタデータ） (2025-04-01T09:55:23Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
Pruning Multilingual Large Language Models for Multilingual Inference [28.36717615166238]
本研究では,非英語言語におけるMLLMのゼロショット性能を向上させる方法について検討する。まず、翻訳を行う際のMLLMの挙動を分析し、翻訳過程において重要な役割を果たす大きな特徴があることを明らかにする。
論文参考訳（メタデータ） (2024-09-25T13:15:50Z)
INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [25.402797722575805]
インデックスQAベンチマーク(Indic QA Benchmark)は、インドの主要言語11言語を対象にした、文脈に基づく質問応答のためのデータセットである。評価の結果,学習データに強い英語バイアスがあるため,低資源言語では弱い性能を示した。また、入力を英語に翻訳して処理し、その結果をソース言語に変換して出力するTranslate Testパラダイムについても検討した。
論文参考訳（メタデータ） (2024-07-18T13:57:16Z)
Adapting Multilingual LLMs to Low-Resource Languages with Knowledge Graphs via Adapters [3.7273829129985305]
本稿では,言語から多言語大モデル(LLM)へのグラフ知識の統合について検討する。我々は、感情分析(SA)および名前付きエンティティ認識(NER)における低リソース言語(LRL)の性能向上のために、言語固有のアダプタを使用している。構造化グラフ知識が,SA および NER における LRL の多言語 LLM の性能に与える影響を評価する。
論文参考訳（メタデータ） (2024-07-01T15:56:24Z)
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか? 本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文参考訳（メタデータ） (2024-06-23T15:15:17Z)
MindMerger: Efficient Boosting LLM Reasoning in non-English Languages [26.334092384176518]
推論能力は大規模言語モデル(LLM)にとって不可欠である我々は,多言語モデルからLLMと外部言語理解機能を融合したMindMergerを提案する。 MindMergerは、特に低リソース言語において、すべてのベースラインを一貫して上回る。
論文参考訳（メタデータ） (2024-05-27T17:41:54Z)
Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages [0.0]
大規模言語モデル(LLM)は、自然言語処理タスクにおいて驚くほどの習熟度を示している。 LLMは、トレーニングデータが少ないため、低リソースの言語でよく機能するのに苦労することが多い。本研究では,世界5000万人以上の人々が話す言語であるAmharicを話すためのLLaMA-2の訓練について検討する。
論文参考訳（メタデータ） (2024-03-11T01:04:36Z)
Enhancing Multilingual Capabilities of Large Language Models through Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文参考訳（メタデータ） (2024-02-19T15:07:32Z)
UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。本研究では,オープンソースの多言語教師付き微調整データセットを構築する。結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文参考訳（メタデータ） (2024-02-07T05:05:53Z)
Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation [64.5862977630713]
本研究では,機械翻訳評価タスクにおいて,Large Language Models (LLM) がソースデータと参照データをどのように活用するかを検討する。参照情報が評価精度を大幅に向上させるのに対して,意外なことに,ソース情報は時として非生産的である。
論文参考訳（メタデータ） (2024-01-12T13:23:21Z)
Zero-Shot Cross-Lingual Reranking with Large Language Models for Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文参考訳（メタデータ） (2023-12-26T18:38:54Z)
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文参考訳（メタデータ） (2023-09-17T23:49:10Z)
Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文参考訳（メタデータ） (2023-06-20T08:27:47Z)
Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文参考訳（メタデータ） (2023-05-11T05:19:47Z)
El Departamento de Nosotros: How Machine Translated Corpora Affects Language Models in MRC Tasks [0.12183405753834563]
大規模言語モデル(LM)の事前学習には大量のテキストコーパスが必要である。下流自然言語処理タスクの微調整に直接翻訳コーパスを適用する際の注意点について検討する。後処理に伴う慎重なキュレーションにより,性能が向上し,LM全体の堅牢性が向上することを示す。
論文参考訳（メタデータ） (2020-07-03T22:22:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。