論文の概要: Eliciting Better Multilingual Structured Reasoning from LLMs through
Code
- arxiv url: http://arxiv.org/abs/2403.02567v1
- Date: Tue, 5 Mar 2024 00:48:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 16:40:07.758417
- Title: Eliciting Better Multilingual Structured Reasoning from LLMs through
Code
- Title(参考訳): LLMからコードへのより良い多言語構造推論
- Authors: Bryan Li and Tamer Alkhouli and Daniele Bonadiman and Nikolaos Pappas
and Saab Mansour
- Abstract要約: 我々は6言語にまたがる4つのタスクを網羅する,xSTREETと呼ばれる多言語構造推論と説明データセットを提案する。
xSTREETは、英語と非英語の推論タスクの基本的なLLMパフォーマンスのギャップを露呈する。
このギャップを緩和する2つの方法を提案する。
- 参考スコア(独自算出の注目度): 19.17176027299478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Development of large language models (LLM) have shown progress on reasoning,
though studies have been limited to English or simple reasoning tasks. We thus
introduce a multilingual structured reasoning and explanation dataset, termed
xSTREET, that covers four tasks across six languages. xSTREET exposes a gap in
base LLM performance between English and non-English reasoning tasks. We then
propose two methods to remedy this gap, building on the insight that LLMs
trained on code are better reasoners. First, at training time, we augment a
code dataset with multi-lingual comments using machine translation while
keeping program code as-is. Second, at inference time, we bridge the gap
between training and inference by employing a prompt structure that
incorporates step-by-step code primitives to derive new facts and find a
solution. Our methods show improved multilingual performance on xSTREET, most
notably on the scientific commonsense reasoning subtask. Furthermore, the
models show no regression on non-reasoning tasks, thus showing our techniques
maintain general-purpose abilities.
- Abstract(参考訳): 大規模言語モデル(LLM)の開発は推論の進歩を示しているが、研究は英語や単純な推論に限られている。
本稿では,6言語にまたがる4つのタスクをカバーする多言語構造推論と説明データセット「xstreet」を提案する。
xSTREETは、英語と非英語の推論タスクの基本的なLLMパフォーマンスのギャップを露呈する。
次に、このギャップを改善する2つの方法を提案し、コードで訓練されたllmがよりよい推論者であるという知見に基づいています。
まず、トレーニング時に、プログラムコードをそのまま維持しながら、機械翻訳を用いた多言語コメントによるコードデータセットの拡張を行う。
第二に、推論時に、ステップバイステップのコードプリミティブを組み込んだプロンプト構造を使うことで、トレーニングと推論の間のギャップを橋渡しし、新しい事実を導き、解決策を見つけ出す。
提案手法はxSTREETにおける多言語的性能の向上を示し,特に科学的常識推論サブタスクにおいて顕著である。
さらに,本モデルでは非推論タスクの回帰を示さず,汎用能力の維持を図っている。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - How do Large Language Models Handle Multilingualism? [87.06210331315451]
大規模言語モデル(LLM)は、様々な言語で顕著な性能を示す。
LLMの多言語入力処理を記述したフレームワークを提案する。
さらに,特定の言語処理における言語特異的ニューロンの存在について検討する。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - MELA: Multilingual Evaluation of Linguistic Acceptability [7.972947286843729]
MELAは、言語受容性に関する最初の多言語ベンチマークであり、10言語をカバーする48Kの判断である。
多言語解釈可能性の追求において, 微調整XLM-Rの重み解析を行った。
言語間およびマルチタスク学習実験は、意味的タスクとは異なり、言語内トレーニングデータが受容性に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-11-15T15:25:28Z) - CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文 参考訳(メタデータ) (2023-09-05T04:12:01Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - InstructAlign: High-and-Low Resource Language Alignment via Continual
Crosslingual Instruction Tuning [66.31509106146605]
命令を調整した大規模言語モデル(LLM)は、様々なタスクや言語で顕著な能力を示している。
しかし、利用可能なデータが不足しているため、表現不足の言語に一般化する能力は限られている。
InstructAlignは、LLMが新しい未知の言語を学習済みの高リソース言語と整列できるようにするために、連続的なクロスリンガル命令チューニングを使用する。
論文 参考訳(メタデータ) (2023-05-23T02:51:34Z) - ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for
Programming Languages [37.60016772021422]
同じプログラミング言語(PL)を扱うソフトウェアエンジニアは、異なる自然言語(NL)を話し、その逆も話す。
近年の研究では、コンピュータプログラムにおける生成前訓練の有効性が実証されているが、それらは常に英語中心である。
ERNIE-Codeは116個のNLと6個のPLのための統合事前学習言語モデルである。
論文 参考訳(メタデータ) (2022-12-13T17:21:44Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。