Fugu-MT 論文翻訳(概要): LangProBe: a Language Programs Benchmark

論文の概要: LangProBe: a Language Programs Benchmark

arxiv url: http://arxiv.org/abs/2502.20315v1
Date: Thu, 27 Feb 2025 17:41:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-28 15:15:47.173428
Title: LangProBe: a Language Programs Benchmark
Title（参考訳）: LangProBe: 言語プログラムベンチマーク
Authors: Shangyin Tan, Lakshya A Agrawal, Arnav Singhvi, Liheng Lai, Michael J Ryan, Dan Klein, Omar Khattab, Koushik Sen, Matei Zaharia,
Abstract要約: 本稿では,言語プログラムのアーキテクチャと最適化戦略を評価するための,最初の大規模ベンチマークであるLangProBeを紹介する。最適化された言語プログラムは、モデルへの生の呼び出しよりも高いコスト品質の改善を提供するが、最高のパフォーマンスには人間の判断が依然として必要であることを示す。
参考スコア（独自算出の注目度）: 53.81811700561928
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Composing language models (LMs) into multi-step language programs and automatically optimizing their modular prompts is now a mainstream paradigm for building AI systems, but the tradeoffs in this space have only scarcely been studied before. We introduce LangProBe, the first large-scale benchmark for evaluating the architectures and optimization strategies for language programs, with over 2000 combinations of tasks, architectures, optimizers, and choices of LMs. Using LangProBe, we are the first to study the impact of program architectures and optimizers (and their compositions together and with different models) on tradeoffs of quality and cost. We find that optimized language programs offer strong cost--quality Pareto improvement over raw calls to models, but simultaneously demonstrate that human judgment (or empirical decisions) about which compositions to pursue is still necessary for best performance. We will open source the code and evaluation data for LangProBe.
Abstract（参考訳）: 言語モデル(LM)を多段階言語プログラムに組み込んで、モジュール型のプロンプトを自動的に最適化することは、AIシステム構築の主流パラダイムとなっている。我々は,言語プログラムのアーキテクチャと最適化戦略を評価するための,最初の大規模ベンチマークであるLangProBeを紹介した。 LangProBeを使うことで、私たちは、品質とコストのトレードオフに対するプログラムアーキテクチャとオプティマイザ(およびそれらの構成と異なるモデル)の影響を初めて研究します。最適化された言語プログラムは、モデルへの生の呼び出しよりも高いコスト品質のParetoの改善を提供するが、どの構成を追求するかという人間の判断(または経験的な決定)が、最高のパフォーマンスにはまだ必要であることを示す。 LangProBeのコードと評価データをオープンソースにします。

関連論文リスト

Evaluating Large Language Models for Code Translation: Effects of Prompt Language and Prompt Design [0.0]
大規模言語モデル(LLM)はソースコードの自動翻訳を約束している。しかし、モデル選択、迅速な設計、言語形翻訳の質に関する比較証拠は依然として限られている。本研究は,C++,Java,Python,C#間のコード翻訳において,最先端のLLMを体系的に評価する。
論文参考訳（メタデータ） (2025-09-16T11:30:10Z)
Guaranteed Guess: A Language Modeling Approach for CISC-to-RISC Transpilation with Testing Guarantees [0.03994567502796063]
GG(Guaranteed Guess)は、事前学習された大規模言語モデルの翻訳能力と、確立されたソフトウェアテスト構造の厳密さを組み合わせた、ISA中心のトランスパイレーションパイプラインである。提案手法は,あるISAから別のISAへのLSMを用いた候補翻訳を生成し,ソフトウェアテストフレームワークにそのような翻訳を組み込んで,翻訳の量的信頼性を構築する。我々は、2つの多様なデータセットに対するGGアプローチを評価し、ユニットテストに高いコードカバレッジ(>98%)を強制し、HumanEvalプログラムで99%、BringupBenchプログラムで49%の関数的/意味的正当性を達成した。
論文参考訳（メタデータ） (2025-06-17T15:06:54Z)
Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention [71.12193680015622]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示している。 LLMは異なる言語間で大きな性能差を示す。 Inference-Time Cross-Lingual Intervention (INCLINE) を提案する。
論文参考訳（メタデータ） (2024-10-16T11:23:03Z)
Multi-Programming Language Ensemble for Code Generation in Large Language Model [5.882816711878273]
大規模言語モデル(LLM)は、特にワンパスコード生成において、コード生成を大幅に改善した。既存のアプローチのほとんどは、単一のプログラミング言語でコードを生成することだけに重点を置いており、LLMの多言語機能を活用する可能性を見越している。本稿では,複数の言語にまたがるコード生成を利用して全体的な性能を向上させる,新しいアンサンブルに基づくMulti-Programming Language Ensemble (MPLE)を提案する。
論文参考訳（メタデータ） (2024-09-06T08:31:18Z)
Should AI Optimize Your Code? A Comparative Study of Current Large Language Models Versus Classical Optimizing Compilers [0.0]
大規模言語モデル(LLM)は、コード最適化方法論に革命をもたらすAI駆動アプローチの可能性に関する興味深い疑問を提起する。本稿では、GPT-4.0とCodeLlama-70Bの2つの最先端大言語モデルと従来の最適化コンパイラの比較分析を行う。
論文参考訳（メタデータ） (2024-06-17T23:26:41Z)
Optimizing Instructions and Demonstrations for Multi-Stage Language Model Programs [40.159064885288245]
言語モデルプログラムの即時最適化について検討する。この問題を各モジュールのフリーフォーム命令と数発のデモの最適化に分解する。我々は,LMプログラムを最適化する新しいアルゴリズムであるMIPROを開発した。
論文参考訳（メタデータ） (2024-06-17T16:12:03Z)
LangGPT: Rethinking Structured Reusable Prompt Design Framework for LLMs from the Programming Language [23.692367748537517]
LLMのプログラミング言語としての2層プロンプト設計フレームワークであるLangGPTを提案する。 LangGPTは、簡単に学習できる規範構造を持ち、マイグレーションと再利用のために拡張された構造を提供する。
論文参考訳（メタデータ） (2024-02-26T15:05:16Z)
Leveraging Reinforcement Learning and Large Language Models for Code Optimization [14.602997316032706]
本稿では,コード最適化の複雑さを低減するための新しいフレームワークを提案する。提案するフレームワークは,大規模言語モデル(LLM)と強化学習(RL)に基づく。我々は,新しい強化学習アルゴリズムであるCodeT5言語モデルとRRHFを用いて,PIEデータセット上でいくつかの実験を行った。
論文参考訳（メタデータ） (2023-12-09T19:50:23Z)
Large Language Models as Optimizers [106.52386531624532]
本稿では,大規模言語モデル (LLM) をプロンプトとして活用するためのシンプルで効果的な手法である Prompting (OPRO) を提案する。各最適化ステップにおいて、LLMは、前述した値を含むプロンプトから新しい解を生成する。 OPROにより最適化された最良のプロンプトは、GSM8Kで最大8%、Big-Bench Hardタスクで最大50%向上することを示した。
論文参考訳（メタデータ） (2023-09-07T00:07:15Z)
Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文参考訳（メタデータ） (2023-02-15T18:59:21Z)
Natural Language to Code Translation with Execution [82.52142893010563]
実行結果-プログラム選択のための最小ベイズリスク復号化。そこで本研究では,自然言語からコードへのタスクにおいて,事前訓練されたコードモデルの性能を向上することを示す。
論文参考訳（メタデータ） (2022-04-25T06:06:08Z)
Learning to Superoptimize Real-world Programs [79.4140991035247]
本稿では,ニューラルシークエンス・ツー・シーケンス・モデルを用いて,実世界のプログラムを最適化するフレームワークを提案する。我々は、x86-64アセンブリでオープンソースプロジェクトから抽出された25万以上の実世界の関数からなるデータセットであるBig Assemblyベンチマークを紹介した。
論文参考訳（メタデータ） (2021-09-28T05:33:21Z)
ProGraML: Graph-based Deep Learning for Program Optimization and Analysis [16.520971531754018]
本稿では,機械学習のためのグラフベースのプログラム表現であるProGraMLを紹介する。 ProGraMLは平均94.0F1スコアを獲得し、最先端のアプローチを著しく上回っている。そして、我々のアプローチを2つのハイレベルなタスク - 不均一なデバイスマッピングとプログラム分類 - に適用し、その両方で新しい最先端のパフォーマンスを設定します。
論文参考訳（メタデータ） (2020-03-23T20:27:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。