Fugu-MT 論文翻訳(概要): A State-of-the-practice Release-readiness Checklist for Generative AI-based Software Products

論文の概要: A State-of-the-practice Release-readiness Checklist for Generative AI-based Software Products

arxiv url: http://arxiv.org/abs/2403.18958v1
Date: Wed, 27 Mar 2024 19:02:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-29 18:11:43.863096
Title: A State-of-the-practice Release-readiness Checklist for Generative AI-based Software Products
Title（参考訳）: ジェネレーティブAIベースのソフトウェア製品のための実用的リリース-可読性チェックリスト
Authors: Harsh Patel, Dominique Boucher, Emad Fallahzadeh, Ahmed E. Hassan, Bram Adams,
Abstract要約: 本稿では,大規模言語モデルをソフトウェア製品に統合することの複雑さを考察し,リリースの準備の整合性を決定する上で直面する課題に焦点をあてる。グレー文献の体系的なレビューでは,事前学習から微調整,ユーザエクスペリエンスの考慮に至るまで,LCMのデプロイにおける一般的な課題が明確化されている。この調査では,パフォーマンスや監視,デプロイメント戦略など,重要なリリース準備の面を評価する上で,実践者のガイドとして設計された包括的なチェックリストが紹介されている。
参考スコア（独自算出の注目度）: 8.986278918477595
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper investigates the complexities of integrating Large Language Models (LLMs) into software products, with a focus on the challenges encountered for determining their readiness for release. Our systematic review of grey literature identifies common challenges in deploying LLMs, ranging from pre-training and fine-tuning to user experience considerations. The study introduces a comprehensive checklist designed to guide practitioners in evaluating key release readiness aspects such as performance, monitoring, and deployment strategies, aiming to enhance the reliability and effectiveness of LLM-based applications in real-world settings.
Abstract（参考訳）: 本稿では,Large Language Models (LLMs) をソフトウェア製品に統合することの複雑さについて検討し,リリースの準備の整合性を決定する上で直面する課題に焦点をあてる。グレー文献の体系的なレビューでは,事前学習から微調整,ユーザエクスペリエンスの考慮に至るまで,LCMのデプロイにおける一般的な課題が明確化されている。本研究は,LLMベースのアプリケーションの信頼性と実環境環境における有効性を高めることを目的とした,パフォーマンス,監視,デプロイメント戦略などの重要なリリース準備の側面を評価するための総合的なチェックリストを紹介する。

関連論文リスト

Testing the Untestable? An Empirical Study on the Testing Process of LLM-Powered Software Systems [0.0]
本研究では,実世界のアプリケーション開発において,大規模言語モデルがどのようにテストされるかを検討する。ケーススタディは、LLMを利用したアプリケーションを大学コースの一部として構築・展開した学生によって書かれた99の個人レポートを用いて実施された。結果: LLMを利用したシステムをテストするには, 従来の検証手法に適応し, ソースレベルの推論と行動認識評価をブレンドする必要がある。
論文参考訳（メタデータ） (2025-07-31T22:39:24Z)
MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文参考訳（メタデータ） (2025-07-16T14:31:33Z)
A Practical Guide for Evaluating LLMs and LLM-Reliant Systems [1.1715858161748576]
本稿では,代表的なデータセットを積極的にキュレートし,有意義な評価指標を選択するための実践的評価フレームワークを提案する。我々は,現実の要求に順応し,ユーザニーズに応えなければならないシステムの実践的開発と展開をうまく統合する有意義な評価手法を採用する。
論文参考訳（メタデータ） (2025-06-16T01:18:16Z)
Evaluating Large Language Models for Real-World Engineering Tasks [75.97299249823972]
本稿では,実運用指向のエンジニアリングシナリオから得られた100以上の質問をキュレートしたデータベースを提案する。このデータセットを用いて、4つの最先端の大規模言語モデル(LLM)を評価する。以上の結果から,LLMは時間的および構造的推論において強みを示すが,抽象的推論や形式的モデリング,文脈に敏感な工学的論理にはかなり苦労することがわかった。
論文参考訳（メタデータ） (2025-05-12T14:05:23Z)
Combating Toxic Language: A Review of LLM-Based Strategies for Software Engineering [0.49157446832511503]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)に不可欠なものとなり、開発にますます使われている。彼らの普及した使用は、排他的環境を育む可能性のある有害なコンテンツ、有害または攻撃的なコンテンツの存在と伝播に関する懸念を提起する。本稿では, 毒性検出と緩和に関する最近の研究を包括的に概観し, SE-specific と general-purpose の両方のデータセットに焦点をあてる。
論文参考訳（メタデータ） (2025-04-21T21:09:33Z)
Towards a Probabilistic Framework for Analyzing and Improving LLM-Enabled Software [0.0]
大規模言語モデル(LLM)対応システムは、ソフトウェア工学において重要な課題である。本稿では,これらのシステムを体系的に解析し,改善するための確率的枠組みを提案する。
論文参考訳（メタデータ） (2025-01-10T22:42:06Z)
The ELEVATE-AI LLMs Framework: An Evaluation Framework for Use of Large Language Models in HEOR: an ISPOR Working Group Report [12.204470166456561]
この記事では、ELEVATE AI LLMsフレームワークとチェックリストを紹介します。このフレームワークは、モデル特性、正確性、包括性、公平性を含む10の評価領域から構成される。体系的な文献レビューと健康経済モデルの研究の枠組みとチェックリストの検証は、レポートの強さとギャップを識別する能力を強調した。
論文参考訳（メタデータ） (2024-12-23T14:09:10Z)
Experiences from Using LLMs for Repository Mining Studies in Empirical Software Engineering [12.504438766461027]
大規模言語モデル(LLM)は、ソフトウェアリポジトリを分析する革新的な方法を提供することで、ソフトウェア工学(SE)を変革した。私たちの研究は、PRIMES(Prompt Refinement and Insights for Mining Empirical Software repository)というフレームワークをまとめています。この結果,PRIMESの標準化により,LLMを用いた研究の信頼性と精度が向上することが示唆された。
論文参考訳（メタデータ） (2024-11-15T06:08:57Z)
Beyond the Comfort Zone: Emerging Solutions to Overcome Challenges in Integrating LLMs into Software Products [21.486150701178154]
大規模言語モデル(LLM)は、様々な産業にまたがるソフトウェア製品にますます組み込まれています。この研究では、ソフトウェア開発者が直面した課題をナビゲートするために採用している、新たなソリューションについて検討する。
論文参考訳（メタデータ） (2024-10-15T21:11:10Z)
SpecEval: Evaluating Code Comprehension in Large Language Models via Program Specifications [12.683365968483807]
プログラム仕様を用いて,大規模言語モデルにおけるコード理解を評価するためのSpecEvalを提案する。プログラムのセマンティクスを表現し、徹底的な評価を行うために、正式な仕様を採用する。特に、4つの仕様関連タスクは、基本的なレベルから高度なレベルまでLLMの能力を評価するように設計されている。
論文参考訳（メタデータ） (2024-09-19T16:08:39Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
LEARN: Knowledge Adaptation from Large Language Model to Recommendation for Practical Industrial Application [54.984348122105516]
Llm-driven knowlEdge Adaptive RecommeNdation (LEARN)フレームワークは、オープンワールドの知識と協調的な知識をシナジする。オープンワールドの知識と協調的な知識を相乗化するLlm-driven knowlEdge Adaptive RecommeNdation (LEARN) フレームワークを提案する。
論文参考訳（メタデータ） (2024-05-07T04:00:30Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。 DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。 GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文参考訳（メタデータ） (2024-03-13T15:13:44Z)
RITFIS: Robust input testing framework for LLMs-based intelligent software [6.439196068684973]
RITFISは、自然言語入力に対するインテリジェントソフトウェアの堅牢性を評価するために設計された最初のフレームワークである。 RITFISは17の自動テスト手法を採用しており、元々はディープニューラルネットワーク(DNN)ベースのインテリジェントソフトウェア用に設計された。 LLMベースの知的ソフトウェア評価におけるRITFISの有効性を実証的検証により示す。
論文参考訳（メタデータ） (2024-02-21T04:00:54Z)
A Case Study on Test Case Construction with Large Language Models: Unveiling Practical Insights and Challenges [2.7029792239733914]
本稿では,ソフトウェア工学の文脈におけるテストケース構築における大規模言語モデルの適用について検討する。定性分析と定量分析の混合により, LLMが試験ケースの包括性, 精度, 効率に与える影響を評価する。
論文参考訳（メタデータ） (2023-12-19T20:59:02Z)
Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
本稿では,インストラクションチューニング(IT)の急速な発展分野における研究成果について調査する。本稿では、指定しない場合を除き、命令チューニング(IT)は教師付き微調整(SFT)と等価である。
論文参考訳（メタデータ） (2023-08-21T15:35:16Z)
Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。本稿では,この新技術について概観する。
論文参考訳（メタデータ） (2023-08-06T18:38:52Z)
A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文参考訳（メタデータ） (2023-05-31T13:51:26Z)
CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing [139.77117915309023]
CRITICは、大規模な言語モデルに対して、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と修正を可能にする。自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを証明している。
論文参考訳（メタデータ） (2023-05-19T15:19:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。