論文の概要: Python is Not Always the Best Choice: Embracing Multilingual Program of Thoughts
- arxiv url: http://arxiv.org/abs/2402.10691v4
- Date: Mon, 18 Nov 2024 09:53:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:29:51.551842
- Title: Python is Not Always the Best Choice: Embracing Multilingual Program of Thoughts
- Title(参考訳): Pythonは必ずしもベストチョイスではない:思考の多言語プログラムを受け入れる
- Authors: Xianzhen Luo, Qingfu Zhu, Zhiming Zhang, Libo Qin, Xuanyu Zhang, Qing Yang, Dongliang Xu, Wanxiang Che,
- Abstract要約: 本稿では,多言語からの強みと多様性を生かしたMultiPoTというタスクとモデル非依存のアプローチを提案する。
実験の結果、Python Self-Consistencyを著しく上回ることがわかった。
特にMultiPoTはChatGPT(gpt-3.5-turbo-0701)で平均4.6%以上の改善を実現している。
- 参考スコア(独自算出の注目度): 51.49688654641581
- License:
- Abstract: Program of Thoughts (PoT) is an approach characterized by its executable intermediate steps, which ensure the accuracy of the logical calculations in the reasoning process. Currently, PoT primarily uses Python. However, relying solely on a single language may result in suboptimal solutions and overlook the potential benefits of other programming languages. In this paper, we conduct comprehensive experiments on the programming languages used in PoT and find that no single language consistently delivers optimal performance across all tasks and models. The effectiveness of each language varies depending on the specific scenarios. Inspired by this, we propose a task and model agnostic approach called MultiPoT, which harnesses strength and diversity from various languages. Experimental results reveal that it significantly outperforms Python Self-Consistency. Furthermore, it achieves comparable or superior performance compared to the best monolingual PoT in almost all tasks across all models. In particular, MultiPoT achieves more than 4.6% improvement on average on ChatGPT (gpt-3.5-turbo-0701).
- Abstract(参考訳): プログラム・オブ・ソート(Program of Thoughts、PoT)は、論理的計算の正確性を保証する、その実行可能な中間ステップを特徴とするアプローチである。
現在、PoTは主にPythonを使用している。
しかし、単一の言語にのみ依存すると、最適化されていないソリューションが生まれ、他のプログラミング言語の潜在的な利点を見落としてしまう可能性がある。
本稿では,PoTで使用されるプログラミング言語の総合的な実験を行い,全てのタスクやモデルに対して一貫した最適な性能を提供する言語は存在しないことを明らかにする。
それぞれの言語の有効性は、特定のシナリオによって異なる。
そこで本研究では,多言語からの強みと多様性を生かした,MultiPoTと呼ばれるタスクとモデル非依存のアプローチを提案する。
実験の結果、Python Self-Consistencyを著しく上回ることがわかった。
さらに、全てのモデルにわたるほぼ全てのタスクにおいて、最高のモノリンガルPoTと比較して、同等または優れたパフォーマンスを達成する。
特に、MultiPoTはChatGPT(gpt-3.5-turbo-0701)で平均4.6%以上の改善を実現している。
関連論文リスト
- CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Python Tool for Visualizing Variability of Pareto Fronts over Multiple
Runs [1.370633147306388]
経験的達成サーフェスのためのPythonパッケージを開発した。
パッケージはhttps://github.com/nabe0928/empirical-attainment-funcで入手できる。
論文 参考訳(メタデータ) (2023-05-15T17:59:34Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - Measuring The Impact Of Programming Language Distribution [28.96076723773365]
我々は,任意の言語におけるベンチマークの実行ベースの評価を行うためのBabelCodeフレームワークを提案する。
我々は Translating Python Programming Puzzles (TP3) と呼ばれる新しいコード翻訳データセットを提案する。
トレーニングデータセットにおける14の言語分布のバランスをとることで,低リソース言語における大規模言語モデルの性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-02-03T19:47:22Z) - Beyond Static Models and Test Sets: Benchmarking the Potential of
Pre-trained Models Across Tasks and Languages [15.373725507698591]
本稿は,多言語評価における既存の実践を信頼できないものにし,言語環境全体にわたるMMLMの性能の全体像を提示していないことを論じる。
我々は,NLPタスクのパフォーマンス予測における最近の研究が,多言語NLPにおけるベンチマークの修正における潜在的な解決策となることを示唆する。
実験データと4つの異なる多言語データセットのケーススタディを比較し、これらの手法が翻訳に基づくアプローチとよく一致している性能の信頼性を推定できることを示した。
論文 参考訳(メタデータ) (2022-05-12T20:42:48Z) - Analysing The Impact Of Linguistic Features On Cross-Lingual Transfer [3.299672391663527]
我々は、最先端の多言語モデルを分析し、言語間の良い伝達に何が影響するかを判断する。
また,特定の構文特徴を見ることは,構文的類似性の集合よりも,性能予測に2~4倍有益であることを示す。
論文 参考訳(メタデータ) (2021-05-12T21:22:58Z) - WARP: Word-level Adversarial ReProgramming [13.08689221166729]
多くのアプリケーションでは、多くのパラメータを複数のタスクで共有できるように、より小さなパラメータセットをチューニングすることが望ましい。
自動プロンプト生成に関する初期の研究を拡張した逆転プログラミングに基づく代替アプローチを提案する。
提案手法は,SST-2およびMNLIデータセット上で,類似のトレーニング可能なパラメータ数で他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-01T00:41:03Z) - Balancing Training for Multilingual Neural Machine Translation [130.54253367251738]
多言語機械翻訳(MT)モデルは、複数の言語に翻訳/翻訳することができる。
標準的なプラクティスは、表現力を高めるために、リソースの少ない言語をアップサンプルすることである。
そこで本研究では,データスコアラによるトレーニングデータの重み付けを自動的に学習する手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T18:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。