論文の概要: Breaking the Language Barrier: Improving Cross-Lingual Reasoning with
Structured Self-Attention
- arxiv url: http://arxiv.org/abs/2310.15258v1
- Date: Mon, 23 Oct 2023 18:06:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 22:23:36.125891
- Title: Breaking the Language Barrier: Improving Cross-Lingual Reasoning with
Structured Self-Attention
- Title(参考訳): 言語バリアを破る - 構造化自己認識による言語間推論の改善
- Authors: Negar Foroutan, Mohammadreza Banaei, Karl Aberer, Antoine Bosselut
- Abstract要約: 多言語言語モデル(MultiLM)が、異なる言語での推論のために微調整された場合、論理的推論能力を他の言語に伝達できるかどうかを検討する。
我々は,MultiLMが言語間の推論能力をモノリンガルな環境で伝達できることを実証した。
この観察に続いて,コードスイッチングシーケンスにおける言語横断的な注意を促すために,専用パラメータセットを用いた新しいアテンション機構を提案する。
- 参考スコア(独自算出の注目度): 18.439771003766026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we study whether multilingual language models (MultiLMs) can
transfer logical reasoning abilities to other languages when they are
fine-tuned for reasoning in a different language. We evaluate the cross-lingual
reasoning abilities of MultiLMs in two schemes: (1) where the language of the
context and the question remain the same in the new languages that are tested
(i.e., the reasoning is still monolingual, but the model must transfer the
learned reasoning ability across languages), and (2) where the language of the
context and the question is different (which we term code-switched reasoning).
On two logical reasoning datasets, RuleTaker and LeapOfThought, we demonstrate
that although MultiLMs can transfer reasoning ability across languages in a
monolingual setting, they struggle to transfer reasoning abilities in a
code-switched setting. Following this observation, we propose a novel attention
mechanism that uses a dedicated set of parameters to encourage cross-lingual
attention in code-switched sequences, which improves the reasoning performance
by up to 14% and 4% on the RuleTaker and LeapOfThought datasets, respectively.
- Abstract(参考訳): 本研究では、多言語言語モデル(MultiLM)が、異なる言語での推論のために微調整された場合、論理推論能力を他の言語に伝達できるかどうかを検討する。
1) 文脈と質問の言語がテスト対象の新言語で同じままである場合(つまり、推論は単言語だが、学習された推論能力は言語間で伝達しなければならない)、(2) 文脈の言語と質問の言語が異なる場合(コード変更推論と呼ぶ)、の2つのスキームでMultiLMの言語間推論能力を評価する。
RuleTakerとLeapOfThoughtという2つの論理的推論データセットでは、MultiLMはモノリンガルな環境で言語間で推論能力を転送できるが、コードに切り替えられた環境では推論能力の転送に苦労している。
そこで本研究では,ルールテイカーとleapofthoughtデータセットの推論性能をそれぞれ最大14%,4%向上させるコード切替シーケンスにおける言語横断的注意を促すためのパラメータセットを用いた新しい注意機構を提案する。
関連論文リスト
- Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Language Imbalance Can Boost Cross-lingual Generalisation [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - Eliciting Better Multilingual Structured Reasoning from LLMs through
Code [19.17176027299478]
我々は6言語にまたがる4つのタスクを網羅する,xSTREETと呼ばれる多言語構造推論と説明データセットを提案する。
xSTREETは、英語と非英語の推論タスクの基本的なLLMパフォーマンスのギャップを露呈する。
このギャップを緩和する2つの方法を提案する。
論文 参考訳(メタデータ) (2024-03-05T00:48:56Z) - How do Large Language Models Handle Multilingualism? [87.06210331315451]
大規模言語モデル(LLM)は、様々な言語で顕著な性能を示す。
LLMの多言語入力処理を記述したフレームワークを提案する。
さらに,特定の言語処理における言語特異的ニューロンの存在について検討する。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - MELA: Multilingual Evaluation of Linguistic Acceptability [7.972947286843729]
MELAは、言語受容性に関する最初の多言語ベンチマークであり、10言語をカバーする48Kの判断である。
多言語解釈可能性の追求において, 微調整XLM-Rの重み解析を行った。
言語間およびマルチタスク学習実験は、意味的タスクとは異なり、言語内トレーニングデータが受容性に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-11-15T15:25:28Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - It's All in the Heads: Using Attention Heads as a Baseline for
Cross-Lingual Transfer in Commonsense Reasoning [4.200736775540874]
我々は,重みを重み付けした線形分類器を特徴として訓練するコモンセンス推論への簡単なアプローチを設計する。
本手法は,近年のコモンセンス推論における教師なし・教師なしの手法と競合する。
パフォーマンスの大部分は、すべての研究対象言語に対する注目の小さなサブセットによって与えられる。
論文 参考訳(メタデータ) (2021-06-22T21:25:43Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。