Fugu-MT 論文翻訳(概要): Fine-tuning Language Models for Recipe Generation: A Comparative Analysis and Benchmark Study

論文の概要: Fine-tuning Language Models for Recipe Generation: A Comparative Analysis and Benchmark Study

arxiv url: http://arxiv.org/abs/2502.02028v2
Date: Sun, 16 Feb 2025 23:50:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 16:13:23.43065
Title: Fine-tuning Language Models for Recipe Generation: A Comparative Analysis and Benchmark Study
Title（参考訳）: レシピ生成のための微調整言語モデル:比較分析とベンチマーク研究
Authors: Anneketh Vij, Changhao Liu, Rahul Anil Nair, Theodore Eugene Ho, Edward Shi, Ayan Bhowmick,
Abstract要約: 本研究は, 様々な非常に小さな言語モデルを微調整し, レシピ生成タスクの探索と研究を行う。我々は、ロバストな評価指標を開発し、レシピ生成のオープンなタスクを異なる言語モデルで比較する。
参考スコア（独自算出の注目度）: 0.6974178500813131
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This research presents an exploration and study of the recipe generation task by fine-tuning various very small language models, with a focus on developing robust evaluation metrics and comparing across different language models the open-ended task of recipe generation. This study presents extensive experiments with multiple model architectures, ranging from T5-small (Raffel et al., 2023) and SmolLM-135M(Allal et al., 2024) to Phi-2 (Research, 2023), implementing both traditional NLP metrics and custom domain-specific evaluation metrics. Our novel evaluation framework incorporates recipe-specific metrics for assessing content quality and introduces approaches to allergen substitution. The results indicate that, while larger models generally perform better on standard metrics, the relationship between model size and recipe quality is more nuanced when considering domain-specific metrics. SmolLM-360M and SmolLM-1.7B demonstrate comparable performance despite their size difference before and after fine-tuning, while fine-tuning Phi-2 shows notable limitations in recipe generation despite its larger parameter count. The comprehensive evaluation framework and allergen substitution systems provide valuable insights for future work in recipe generation and broader NLG tasks that require domain expertise and safety considerations.
Abstract（参考訳）: 本研究は,多種多様な非常に小さな言語モデルを微調整してレシピ生成タスクの探索と研究を行い,ロバストな評価指標の開発と,レシピ生成のオープンなタスクである異なる言語モデルの比較に焦点をあてる。本研究では, T5-small (Raffel et al , 2023) と SmolLM-135M (Allal et al , 2024) から Phi-2 (Research, 2023) まで, 従来の NLP メトリクスとカスタムドメイン固有の評価指標の両方を実装した多種多様なモデルアーキテクチャによる実験を行った。新たな評価フレームワークは, 品質評価のためのレシピ固有の指標を取り入れ, アレルゲン置換へのアプローチを導入している。その結果,モデルのサイズとレシピの質の関係は,ドメイン固有の指標を考慮するとより曖昧であることがわかった。 SmolLM-360MとSmolLM-1.7Bは微調整前と微調整後のサイズの違いにもかかわらず同等の性能を示し、微調整後のPhi-2はパラメータ数が大きいにもかかわらずレシピ生成において顕著な限界を示した。包括的評価フレームワークとアレルゲン置換システムは、レシピ生成と、ドメインの専門知識と安全性の考慮を必要とするより広範なNLGタスクにおける将来の作業に貴重な洞察を提供する。

関連論文リスト

Advancing Retrieval-Augmented Generation for Persian: Development of Language Models, Comprehensive Benchmarks, and Best Practices for Optimization [0.0]
本研究は,ペルシャ固有のモデルを導入することにより,検索と生成の精度を向上させることを目的とする。 3つのデータセット(一般知識(PQuad)、科学的に専門化されたテキスト、組織報告)を使用して、これらのモデルを評価した。 MatinaSRobertaは以前の埋め込みよりも優れており、データセット間のコンテキスト関連性と検索精度に優れていた。
論文参考訳（メタデータ） (2025-01-08T22:16:40Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
OLMES: A Standard for Language Model Evaluations [64.85905119836818]
再現可能な言語モデル評価のための実用的でオープンな標準であるOLMESを提案する。我々は,コミュニティが採用する評価実践において,様々な要因を特定し,検討する。 OLMESは、複数の質問の非自然な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
論文参考訳（メタデータ） (2024-06-12T17:37:09Z)
The Role of Model Architecture and Scale in Predicting Molecular Properties: Insights from Fine-Tuning RoBERTa, BART, and LLaMA [0.0]
本研究では,各種ケミノフォマティクスタスクの微調整におけるLarge Language Models(LLMs)の有効性を比較するための体系的枠組みを提案する。分子特性を予測するために,RoBERTa,BART,LLaMAの3つのモデルを評価した。 LLaMAベースのモデルは、一般的に最低限のバリデーション損失を提供しており、タスクやスケールの順応性が優れていることを示唆している。
論文参考訳（メタデータ） (2024-05-02T02:20:12Z)
Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文参考訳（メタデータ） (2024-02-16T13:53:26Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文参考訳（メタデータ） (2023-10-24T12:18:17Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Code to Comment Translation: A Comparative Study on Model Effectiveness & Errors [19.653423881863834]
機械翻訳モデルは、コードスニペットを関連する自然言語記述に"翻訳"するために使用される。このようなモデルのほとんどの評価は、自動参照ベースメトリクスを用いて行われる。本稿では,スムーズなBLEU-4, METEOR, ROUGE-L機械翻訳指標に基づくソースコード要約モデルを提案する。実験によって得られた誤り分類において,メトリックベース性能とモデル予測誤差の関係について新たな知見が得られた。
論文参考訳（メタデータ） (2021-06-15T20:13:14Z)
Comparing hundreds of machine learning classifiers and discrete choice models in predicting travel behavior: an empirical benchmark [6.815730801645785]
多くの研究は、旅行需要予測において機械学習(ML)と離散選択モデル(DCM)を比較してきた。これらの研究は、文脈変動を考慮せずに決定論的にモデルを比較するため、一般化性に欠けることが多い。このベンチマークでは、2つの大規模データソースを比較した。
論文参考訳（メタデータ） (2021-02-01T19:45:47Z)
GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。 10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文参考訳（メタデータ） (2020-10-24T08:30:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。