Fugu-MT 論文翻訳(概要): MultiPoT: Multilingual Program of Thoughts Harnesses Multiple Programming Languages

論文の概要: MultiPoT: Multilingual Program of Thoughts Harnesses Multiple Programming Languages

arxiv url: http://arxiv.org/abs/2402.10691v1
Date: Fri, 16 Feb 2024 13:48:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 16:03:29.047914
Title: MultiPoT: Multilingual Program of Thoughts Harnesses Multiple Programming Languages
Title（参考訳）: MultiPoT: 複数のプログラミング言語に配慮した多言語プログラム
Authors: Xianzhen Luo, Qingfu Zhu, Zhiming Zhang, Libo Qin, Xu Wang, Qing Yang, Dongliang Xu, Wanxiang Che
Abstract要約: プログラム・オブ・ソート(PoT)は、その実行可能な中間ステップによって特徴づけられるアプローチである。われわれはPoTで使われているプログラミング言語について包括的な実験を行い、どの言語も常に最適な性能を提供していないことを発見した。本稿では,多言語からの強みと多様性を生かしたMultiPoTというタスクとモデル非依存のアプローチを提案する。
参考スコア（独自算出の注目度）: 48.066929898229596
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Program of Thoughts (PoT) is an approach characterized by its executable intermediate steps, which ensure the accuracy of the numerical calculations in the reasoning process. Currently, PoT primarily uses Python. However, relying solely on a single language may result in suboptimal solutions and overlook the potential benefits of other programming languages. In this paper, we conduct comprehensive experiments on the programming languages used in PoT and find that no single language consistently delivers optimal performance across all tasks and models. The effectiveness of each language varies depending on the specific scenarios. Inspired by this, we propose a task and model agnostic approach called MultiPoT, which harnesses strength and diversity from various languages. Experimental results reveal that it significantly outperforms Python Self-Consistency. Furthermore, it achieves comparable or superior performance compared to the best monolingual PoT in almost all tasks across all models. In particular, MultiPoT achieves more than 4.6\% improvement on average on both Starcoder and ChatGPT (gpt-3.5-turbo).
Abstract（参考訳）: プログラム・オブ・ソート(PoT)は、その実行可能な中間ステップによって特徴づけられるアプローチであり、推論過程における数値計算の精度を保証する。現在、PoTは主にPythonを使用している。しかし、単一の言語にのみ依存すると、最適でない解決策が生まれ、他のプログラミング言語の潜在的な利点を見落としてしまう可能性がある。本稿では,PoTで使用されるプログラミング言語の総合的な実験を行い,全てのタスクやモデルに対して一貫した最適な性能を提供する言語は存在しないことを明らかにする。それぞれの言語の有効性は、特定のシナリオによって異なる。そこで本研究では,多言語からの強みと多様性を生かした,MultiPoTと呼ばれるタスクとモデル非依存のアプローチを提案する。実験の結果、Python Self-Consistencyを著しく上回ることがわかった。さらに、すべてのモデルでほぼすべてのタスクで最高の単言語ポットと比較して、同等または優れたパフォーマンスを達成している。特に、MultiPoTはStarcoderとChatGPT(gpt-3.5-turbo)で平均4.6\%以上の改善を実現している。

関連論文リスト

EffiBench-X: A Multi-Language Benchmark for Measuring Efficiency of LLM-Generated Code [37.712780804235045]
EffiBench-X は LLM 生成コードの効率を測定するために設計された最初のマルチ言語ベンチマークである。 Python、C++、Java、JavaScript、Ruby、Golangをサポートする。競争力のあるプログラミングタスクと人間の専門的なソリューションをベースラインとして構成する。
論文参考訳（メタデータ） (2025-05-19T11:43:37Z)
MultiLingPoT: Enhancing Mathematical Reasoning with Multilingual Program Fine-tuning [39.25888573235479]
Program-of-Thought (PoT) は、自然言語を推論の中間ステップとして使うことを目的としている。本稿では,多言語プログラム推論手法であるMultiLingPoTを提案する。実験の結果,MultiLingPoTの学習は各プログラムの数学的推論を約2.5%改善することがわかった。
論文参考訳（メタデータ） (2024-12-17T07:14:03Z)
CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。 Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文参考訳（メタデータ） (2024-08-23T11:43:00Z)
DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文参考訳（メタデータ） (2024-03-16T20:18:36Z)
Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文参考訳（メタデータ） (2023-10-31T08:09:20Z)
Python Tool for Visualizing Variability of Pareto Fronts over Multiple Runs [1.370633147306388]
経験的達成サーフェスのためのPythonパッケージを開発した。パッケージはhttps://github.com/nabe0928/empirical-attainment-funcで入手できる。
論文参考訳（メタデータ） (2023-05-15T17:59:34Z)
ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文参考訳（メタデータ） (2023-04-12T05:08:52Z)
Measuring The Impact Of Programming Language Distribution [28.96076723773365]
我々は,任意の言語におけるベンチマークの実行ベースの評価を行うためのBabelCodeフレームワークを提案する。我々は Translating Python Programming Puzzles (TP3) と呼ばれる新しいコード翻訳データセットを提案する。トレーニングデータセットにおける14の言語分布のバランスをとることで,低リソース言語における大規模言語モデルの性能が向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-02-03T19:47:22Z)
Beyond Static Models and Test Sets: Benchmarking the Potential of Pre-trained Models Across Tasks and Languages [15.373725507698591]
本稿は,多言語評価における既存の実践を信頼できないものにし,言語環境全体にわたるMMLMの性能の全体像を提示していないことを論じる。我々は,NLPタスクのパフォーマンス予測における最近の研究が,多言語NLPにおけるベンチマークの修正における潜在的な解決策となることを示唆する。実験データと4つの異なる多言語データセットのケーススタディを比較し、これらの手法が翻訳に基づくアプローチとよく一致している性能の信頼性を推定できることを示した。
論文参考訳（メタデータ） (2022-05-12T20:42:48Z)
Analysing The Impact Of Linguistic Features On Cross-Lingual Transfer [3.299672391663527]
我々は、最先端の多言語モデルを分析し、言語間の良い伝達に何が影響するかを判断する。また,特定の構文特徴を見ることは,構文的類似性の集合よりも,性能予測に2～4倍有益であることを示す。
論文参考訳（メタデータ） (2021-05-12T21:22:58Z)
WARP: Word-level Adversarial ReProgramming [13.08689221166729]
多くのアプリケーションでは、多くのパラメータを複数のタスクで共有できるように、より小さなパラメータセットをチューニングすることが望ましい。自動プロンプト生成に関する初期の研究を拡張した逆転プログラミングに基づく代替アプローチを提案する。提案手法は,SST-2およびMNLIデータセット上で,類似のトレーニング可能なパラメータ数で他の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-01-01T00:41:03Z)
Balancing Training for Multilingual Neural Machine Translation [130.54253367251738]
多言語機械翻訳(MT)モデルは、複数の言語に翻訳/翻訳することができる。標準的なプラクティスは、表現力を高めるために、リソースの少ない言語をアップサンプルすることである。そこで本研究では,データスコアラによるトレーニングデータの重み付けを自動的に学習する手法を提案する。
論文参考訳（メタデータ） (2020-04-14T18:23:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。