Fugu-MT 論文翻訳(概要): Analysis of LLM Performance on AWS Bedrock: Receipt-item Categorisation Case Study

論文の概要: Analysis of LLM Performance on AWS Bedrock: Receipt-item Categorisation Case Study

arxiv url: http://arxiv.org/abs/2604.01615v1
Date: Thu, 02 Apr 2026 04:50:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-03 14:21:10.359527
Title: Analysis of LLM Performance on AWS Bedrock: Receipt-item Categorisation Case Study
Title（参考訳）: AWSベッドロックにおけるLCM性能の分析:Receipt-item分類ケーススタディ
Authors: Gabby Sanchez, Sneha Oommen, Cassandra T. Britto, Di Wang, Jung-De Chiou, Maria Spichkova,
Abstract要約: 本稿では,大規模言語モデル(LLM)の体系的,費用対効果を考慮した評価について述べる。私たちはAWS Bedrockで利用可能な4つの命令チューニングモデルを比較した。実験の結果,Claude 3.7 Sonnetは分類精度とコスト効率のバランスが最も良好であることがわかった。
参考スコア（独自算出の注目度）: 13.135480880299378
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper presents a systematic, cost-aware evaluation of large language models (LLMs) for receipt-item categorisation within a production-oriented classification framework. We compare four instruction-tuned models available through AWS Bedrock: Claude 3.7 Sonnet, Claude 4 Sonnet, Mixtral 8x7B Instruct, and Mistral 7B Instruct. The aim of the study was (1) to assess performance across accuracy, response stability, and token-level cost, and (2) to investigate what prompting methods, zero-shot or few-shot, are especially appropriate both in terms of accuracy and in terms of incurred costs. Results of our experiments demonstrated that Claude 3.7 Sonnet achieves the most favourable balance between classification accuracy and cost efficiency.
Abstract（参考訳）: 本稿では,大規模言語モデル (LLM) の系統的, 費用面を考慮した評価を行い, 生産指向の分類フレームワーク内でのレシート・イテムの分類について述べる。私たちはAWS Bedrockで利用可能な4つの命令チューニングモデルを比較した。本研究の目的は,(1) 精度, 応答安定性, トークンレベルのコストに対する性能評価を行い, (2) 精度, コストの両面で, ゼロショット, 少数ショットの促進方法が特に適切かを検討することである。実験の結果,Claude 3.7 Sonnetは分類精度とコスト効率のバランスが最も良好であることがわかった。

関連論文リスト

Taming Scylla: Understanding the multi-headed agentic daemon of the coding seas [0.0]
本稿ではエージェントコーディングツールをベンチマークするための評価フレームワークであるScyllaを紹介する。主要な指標はCoP(Cost-of-Pass)であり、複雑さと効率のトレードオフを直接的に定量化する。
論文参考訳（メタデータ） (2026-02-09T15:06:24Z)
Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文参考訳（メタデータ） (2025-12-31T13:55:54Z)
A-VERT: Agnostic Verification with Embedding Ranking Targets [0.0]
構造自由評価法を提案する。本手法は,対象候補と任意のLM生成テキストとをマッチングするために,意味埋め込み距離を利用する。その結果, 回帰スコアは0.97, 精度は96%であった。
論文参考訳（メタデータ） (2025-10-01T21:26:03Z)
Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations [0.0]
大規模言語モデル (LLM) は、テキスト品質の評価器としてますます多くデプロイされている。本研究では,ChatGPT,Gemini,Claudeの3つのLLMにおける自己モデルと相互モデルの評価の系統的バイアスについて検討した。
論文参考訳（メタデータ） (2025-08-28T18:59:23Z)
When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。 Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文参考訳（メタデータ） (2025-08-15T10:32:50Z)
LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。 LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。 LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文参考訳（メタデータ） (2025-08-07T14:46:30Z)
Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文参考訳（メタデータ） (2025-05-20T21:12:58Z)
Language Model Preference Evaluation with Multiple Weak Evaluators [89.90733463933431]
PGEDは,複数のモデルに基づく評価器を用いて嗜好グラフを構築し,非循環的非競合性評価結果に対してこれらのグラフをアンサンブルし,デノテーズする手法である。 1)評価のためのモデルランキング、2)テスト時間スケーリングのための応答選択、3)モデル微調整のためのデータ選択である。
論文参考訳（メタデータ） (2024-10-14T01:57:25Z)
Evaluation of Few-Shot Learning for Classification Tasks in the Polish Language [0.1534667887016089]
ポーランド語に固有の7つの異なる分類タスクからなる数ショットのベンチマークを導入する。各種の訓練済み商用およびオープンソースモデルを用いて, 微調整, 線形探索, SetFit, テキスト内学習 (ICL) の0と16ショットを比較した。 ICL は GPT-3.5 や GPT-4 などの商用モデルで最高の性能を達成している。
論文参考訳（メタデータ） (2024-04-27T08:53:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。