論文の概要: MultiPoT: Multilingual Program of Thoughts Harnesses Multiple
Programming Languages
- arxiv url: http://arxiv.org/abs/2402.10691v1
- Date: Fri, 16 Feb 2024 13:48:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 16:03:29.047914
- Title: MultiPoT: Multilingual Program of Thoughts Harnesses Multiple
Programming Languages
- Title(参考訳): MultiPoT: 複数のプログラミング言語に配慮した多言語プログラム
- Authors: Xianzhen Luo, Qingfu Zhu, Zhiming Zhang, Libo Qin, Xu Wang, Qing Yang,
Dongliang Xu, Wanxiang Che
- Abstract要約: プログラム・オブ・ソート(PoT)は、その実行可能な中間ステップによって特徴づけられるアプローチである。
われわれはPoTで使われているプログラミング言語について包括的な実験を行い、どの言語も常に最適な性能を提供していないことを発見した。
本稿では,多言語からの強みと多様性を生かしたMultiPoTというタスクとモデル非依存のアプローチを提案する。
- 参考スコア(独自算出の注目度): 48.066929898229596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Program of Thoughts (PoT) is an approach characterized by its executable
intermediate steps, which ensure the accuracy of the numerical calculations in
the reasoning process. Currently, PoT primarily uses Python. However, relying
solely on a single language may result in suboptimal solutions and overlook the
potential benefits of other programming languages. In this paper, we conduct
comprehensive experiments on the programming languages used in PoT and find
that no single language consistently delivers optimal performance across all
tasks and models. The effectiveness of each language varies depending on the
specific scenarios. Inspired by this, we propose a task and model agnostic
approach called MultiPoT, which harnesses strength and diversity from various
languages. Experimental results reveal that it significantly outperforms Python
Self-Consistency. Furthermore, it achieves comparable or superior performance
compared to the best monolingual PoT in almost all tasks across all models. In
particular, MultiPoT achieves more than 4.6\% improvement on average on both
Starcoder and ChatGPT (gpt-3.5-turbo).
- Abstract(参考訳): プログラム・オブ・ソート(PoT)は、その実行可能な中間ステップによって特徴づけられるアプローチであり、推論過程における数値計算の精度を保証する。
現在、PoTは主にPythonを使用している。
しかし、単一の言語にのみ依存すると、最適でない解決策が生まれ、他のプログラミング言語の潜在的な利点を見落としてしまう可能性がある。
本稿では,PoTで使用されるプログラミング言語の総合的な実験を行い,全てのタスクやモデルに対して一貫した最適な性能を提供する言語は存在しないことを明らかにする。
それぞれの言語の有効性は、特定のシナリオによって異なる。
そこで本研究では,多言語からの強みと多様性を生かした,MultiPoTと呼ばれるタスクとモデル非依存のアプローチを提案する。
実験の結果、Python Self-Consistencyを著しく上回ることがわかった。
さらに、すべてのモデルでほぼすべてのタスクで最高の単言語ポットと比較して、同等または優れたパフォーマンスを達成している。
特に、MultiPoTはStarcoderとChatGPT(gpt-3.5-turbo)で平均4.6\%以上の改善を実現している。
関連論文リスト
- MultiLingPoT: Enhancing Mathematical Reasoning with Multilingual Program Fine-tuning [39.25888573235479]
Program-of-Thought (PoT) は、自然言語を推論の中間ステップとして使うことを目的としている。
本稿では,多言語プログラム推論手法であるMultiLingPoTを提案する。
実験の結果,MultiLingPoTの学習は各プログラムの数学的推論を約2.5%改善することがわかった。
論文 参考訳(メタデータ) (2024-12-17T07:14:03Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Python Tool for Visualizing Variability of Pareto Fronts over Multiple
Runs [1.370633147306388]
経験的達成サーフェスのためのPythonパッケージを開発した。
パッケージはhttps://github.com/nabe0928/empirical-attainment-funcで入手できる。
論文 参考訳(メタデータ) (2023-05-15T17:59:34Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - Measuring The Impact Of Programming Language Distribution [28.96076723773365]
我々は,任意の言語におけるベンチマークの実行ベースの評価を行うためのBabelCodeフレームワークを提案する。
我々は Translating Python Programming Puzzles (TP3) と呼ばれる新しいコード翻訳データセットを提案する。
トレーニングデータセットにおける14の言語分布のバランスをとることで,低リソース言語における大規模言語モデルの性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-02-03T19:47:22Z) - Analysing The Impact Of Linguistic Features On Cross-Lingual Transfer [3.299672391663527]
我々は、最先端の多言語モデルを分析し、言語間の良い伝達に何が影響するかを判断する。
また,特定の構文特徴を見ることは,構文的類似性の集合よりも,性能予測に2~4倍有益であることを示す。
論文 参考訳(メタデータ) (2021-05-12T21:22:58Z) - WARP: Word-level Adversarial ReProgramming [13.08689221166729]
多くのアプリケーションでは、多くのパラメータを複数のタスクで共有できるように、より小さなパラメータセットをチューニングすることが望ましい。
自動プロンプト生成に関する初期の研究を拡張した逆転プログラミングに基づく代替アプローチを提案する。
提案手法は,SST-2およびMNLIデータセット上で,類似のトレーニング可能なパラメータ数で他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-01T00:41:03Z) - Balancing Training for Multilingual Neural Machine Translation [130.54253367251738]
多言語機械翻訳(MT)モデルは、複数の言語に翻訳/翻訳することができる。
標準的なプラクティスは、表現力を高めるために、リソースの少ない言語をアップサンプルすることである。
そこで本研究では,データスコアラによるトレーニングデータの重み付けを自動的に学習する手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T18:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。