論文の概要: Breaking the Language Barrier: Improving Cross-Lingual Reasoning with
Structured Self-Attention
- arxiv url: http://arxiv.org/abs/2310.15258v1
- Date: Mon, 23 Oct 2023 18:06:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 22:23:36.125891
- Title: Breaking the Language Barrier: Improving Cross-Lingual Reasoning with
Structured Self-Attention
- Title(参考訳): 言語バリアを破る - 構造化自己認識による言語間推論の改善
- Authors: Negar Foroutan, Mohammadreza Banaei, Karl Aberer, Antoine Bosselut
- Abstract要約: 多言語言語モデル(MultiLM)が、異なる言語での推論のために微調整された場合、論理的推論能力を他の言語に伝達できるかどうかを検討する。
我々は,MultiLMが言語間の推論能力をモノリンガルな環境で伝達できることを実証した。
この観察に続いて,コードスイッチングシーケンスにおける言語横断的な注意を促すために,専用パラメータセットを用いた新しいアテンション機構を提案する。
- 参考スコア(独自算出の注目度): 18.439771003766026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we study whether multilingual language models (MultiLMs) can
transfer logical reasoning abilities to other languages when they are
fine-tuned for reasoning in a different language. We evaluate the cross-lingual
reasoning abilities of MultiLMs in two schemes: (1) where the language of the
context and the question remain the same in the new languages that are tested
(i.e., the reasoning is still monolingual, but the model must transfer the
learned reasoning ability across languages), and (2) where the language of the
context and the question is different (which we term code-switched reasoning).
On two logical reasoning datasets, RuleTaker and LeapOfThought, we demonstrate
that although MultiLMs can transfer reasoning ability across languages in a
monolingual setting, they struggle to transfer reasoning abilities in a
code-switched setting. Following this observation, we propose a novel attention
mechanism that uses a dedicated set of parameters to encourage cross-lingual
attention in code-switched sequences, which improves the reasoning performance
by up to 14% and 4% on the RuleTaker and LeapOfThought datasets, respectively.
- Abstract(参考訳): 本研究では、多言語言語モデル(MultiLM)が、異なる言語での推論のために微調整された場合、論理推論能力を他の言語に伝達できるかどうかを検討する。
1) 文脈と質問の言語がテスト対象の新言語で同じままである場合(つまり、推論は単言語だが、学習された推論能力は言語間で伝達しなければならない)、(2) 文脈の言語と質問の言語が異なる場合(コード変更推論と呼ぶ)、の2つのスキームでMultiLMの言語間推論能力を評価する。
RuleTakerとLeapOfThoughtという2つの論理的推論データセットでは、MultiLMはモノリンガルな環境で言語間で推論能力を転送できるが、コードに切り替えられた環境では推論能力の転送に苦労している。
そこで本研究では,ルールテイカーとleapofthoughtデータセットの推論性能をそれぞれ最大14%,4%向上させるコード切替シーケンスにおける言語横断的注意を促すためのパラメータセットを用いた新しい注意機構を提案する。
関連論文リスト
- Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Large Language Models Are Cross-Lingual Knowledge-Free Reasoners [43.99097308487008]
我々は,タスクの推論過程を,知識検索と知識のない推論という2つの分離された構成要素に分解する。
知識のない推論能力は,様々なソース・ターゲット言語方向にほぼ完全に移行可能であることを示す。
知識のない推論は、異なる言語で類似したニューロンを推論するために共有し、知識は異なる言語に別々に格納する、という仮説を立てる。
論文 参考訳(メタデータ) (2024-06-24T14:03:04Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - Eliciting Better Multilingual Structured Reasoning from LLMs through Code [17.870002864331322]
我々は6言語にまたがる4つのタスクを網羅する,xSTREETと呼ばれる多言語構造推論と説明データセットを提案する。
xSTREETは、英語と非英語の推論タスクの基本的なLLMパフォーマンスのギャップを露呈する。
このギャップを緩和する2つの方法を提案する。
論文 参考訳(メタデータ) (2024-03-05T00:48:56Z) - LangBridge: Multilingual Reasoning Without Multilingual Supervision [43.67596732997818]
LangBridgeは多言語推論タスクに言語モデルを適応するためのゼロショットアプローチである。
LangBridgeは、トレーニング可能な最小限のパラメータを導入して、2つのモデルを接続する。
解析の結果,LangBridgeの有効性は多言語表現の言語に依存しない特徴に起因していることが示唆された。
論文 参考訳(メタデータ) (2024-01-19T14:00:19Z) - Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is Needed? [40.13166574854085]
英語中心の大規模言語モデルにおいて,多言語間の一般化を実現するために必要な最小限の多言語性について検討する。
複数言語から3言語までの多言語命令チューニングは,効果的な言語間一般化を実現するのに必要かつ十分であることがわかった。
論文 参考訳(メタデータ) (2023-12-20T00:49:52Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。