論文の概要: Multilingual LLMs Inherently Reward In-Language Time-Sensitive Semantic Alignment for Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2412.08090v1
- Date: Wed, 11 Dec 2024 04:16:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:04:30.965080
- Title: Multilingual LLMs Inherently Reward In-Language Time-Sensitive Semantic Alignment for Low-Resource Languages
- Title(参考訳): 低リソース言語に対する言語内時間感性意味的アライメントを継承した多言語LLM
- Authors: Ashutosh Bajpai, Tanmoy Chakraborty,
- Abstract要約: 資源豊富な言語と低リソースと見なされる言語とのラベル付きリソースの格差は、大規模言語モデル(LLM)にとって重要な障害である。
言語間インコンテキスト学習(X-ICL)における最近の進歩は、主に多言語事前学習型トランスフォーマーから得られる意味的に整合した例を通して、この問題を緩和する上で有望であることが示されている。
本研究では,低リソース言語における時間的推論能力の向上により,このギャップを埋めることを目的とする。
- 参考スコア(独自算出の注目度): 19.863010475923414
- License:
- Abstract: The unwavering disparity in labeled resources between resource-rich languages and those considered low-resource remains a significant impediment for Large Language Models (LLMs). Recent strides in cross-lingual in-context learning (X-ICL), mainly through semantically aligned examples retrieved from multilingual pre-trained transformers, have shown promise in mitigating this issue. However, our investigation reveals that LLMs intrinsically reward in-language semantically aligned cross-lingual instances over direct cross-lingual semantic alignments, with a pronounced disparity in handling time-sensitive queries in the X-ICL setup. Such queries demand sound temporal reasoning ability from LLMs, yet the advancements have predominantly focused on English. This study aims to bridge this gap by improving temporal reasoning capabilities in low-resource languages. To this end, we introduce mTEMPREASON a temporal reasoning dataset aimed at the varied degrees of low-resource languages and propose Cross-Lingual Time-Sensitive Semantic Alignment (CLiTSSA), a novel method to improve temporal reasoning in these contexts. To facilitate this, we construct an extension of mTEMPREASON comprising pairs of parallel cross-language temporal queries along with their anticipated in-language semantic similarity scores. Our empirical evidence underscores the superior performance of CLiTSSA compared to established baselines across three languages - Romanian, German, and French, encompassing three temporal tasks and including a diverse set of four contemporaneous LLMs. This marks a significant step forward in addressing resource disparity in the context of temporal reasoning across languages.
- Abstract(参考訳): 資源豊富な言語と低リソースと見なされる言語とのラベル付きリソースの相違は、Large Language Models (LLMs) にとって重要な障害である。
言語間インコンテキスト学習(X-ICL)における最近の進歩は、主に多言語事前学習型トランスフォーマーから得られる意味的に整合した例を通して、この問題を緩和する上で有望であることが示されている。
しかし,本研究では,LLMが言語間セマンティックアライメントに対して,言語間セマンティックアライメントよりも言語間セマンティックアライメントに本質的に報いることを明らかにした。
このようなクエリはLLMから時間的推論能力を要求するが、進歩は主に英語に焦点を当てている。
本研究では,低リソース言語における時間的推論能力の向上により,このギャップを埋めることを目的とする。
そこで我々は,低リソース言語を多用した時間的推論データセットであるmTEMPREASONを導入し,これらの文脈における時間的推論を改善する新しい手法であるCLiTSSA(Cross-Lingual Time-Sensitive Semantic Alignment)を提案する。
これを容易にするために,パラレルな言語間時間クエリと予測される言語間意味的類似度スコアからなるmTEMPREASONの拡張を構築した。
我々の経験的証拠は、CLiTSSAの優れた性能をルーマニア語、ドイツ語、フランス語の3言語にまたがる確立されたベースラインと比較する。
これは、言語間の時間的推論の文脈におけるリソース格差に対処する上で、大きな前進となる。
関連論文リスト
- Refining Translations with LLMs: A Constraint-Aware Iterative Prompting Approach [7.5069214839655345]
大言語モデル(LLM)は機械翻訳(MT)において顕著な熟練性を示している
本稿では,意味的正確性に不可欠なキーワードを優先することで,翻訳忠実度を高める多段階のプロンプトチェーンを提案する。
FLORES-200およびWMTデータセットのベースモデルとしてLlamaとQwenを使用した実験は、ベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-11-13T05:40:24Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Do Large Language Models Have an English Accent? Evaluating and Improving the Naturalness of Multilingual LLMs [13.558778781305998]
大規模言語モデル (LLM) は主に英語を基本言語として設計されている。
多言語である少数の人々でさえ、強い英語中心の偏見を示す傾向がある。
本稿では,多言語出力の語彙的および構文的自然性を評価するための新しい自動コーパスレベル指標を提案する。
論文 参考訳(メタデータ) (2024-10-21T12:34:17Z) - Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention [71.12193680015622]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示している。
LLMは異なる言語間で大きな性能差を示す。
Inference-Time Cross-Lingual Intervention (INCLINE) を提案する。
論文 参考訳(メタデータ) (2024-10-16T11:23:03Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - A dual task learning approach to fine-tune a multilingual semantic speech encoder for Spoken Language Understanding [12.887586659035497]
自己指導型学習は、音声言語理解のための発話を効率的に表現するために広く利用されている。
テキストSSLモデルは言語に依存しないセマンティクスを符号化するために提案されている。
SAMU-XLSRフレームワークはこの意味情報を多言語音声表現の強化に用いた。
論文 参考訳(メタデータ) (2024-06-17T23:07:53Z) - Cross-Lingual Transfer Robustness to Lower-Resource Languages on Adversarial Datasets [4.653113033432781]
多言語言語モデル(MLLM)の言語間伝達能力について検討した。
本研究は,言語間移動とそのNLP応用への応用に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-03-29T08:47:15Z) - LLMs Are Few-Shot In-Context Low-Resource Language Learners [59.74451570590808]
In-context Learning (ICL) は、大規模言語モデル(LLM)に、表現不足の言語で多様なタスクを実行する権限を与える。
ICLとその言語間変動(X-ICL)を25の低リソース言語と7の比較的高リソース言語で検討した。
本研究は,LLMの低リソース理解品質向上における文脈内情報の重要性を論じる。
論文 参考訳(メタデータ) (2024-03-25T07:55:29Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - The Language Barrier: Dissecting Safety Challenges of LLMs in
Multilingual Contexts [46.089025223336854]
本稿では,多言語にわたる大規模言語モデルが直面する安全上の課題の多様性について検討する。
我々は、最先端のLLMが高レベルの言語と低レベルの言語で書かれた同じ悪意のあるプロンプトにどのように反応するかを比較する。
論文 参考訳(メタデータ) (2024-01-23T23:12:09Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。