論文の概要: The Digital Sous Chef -- A Comparative Study on Fine-Tuning Language Models for Recipe Generation
- arxiv url: http://arxiv.org/abs/2508.14718v1
- Date: Wed, 20 Aug 2025 13:53:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.47246
- Title: The Digital Sous Chef -- A Comparative Study on Fine-Tuning Language Models for Recipe Generation
- Title(参考訳): Digital Sous Chef - レシピ生成のためのファインチューニング言語モデルの比較研究
- Authors: Shubham Pundhir, Ganesh Bagler,
- Abstract要約: 本稿では,GPT-2大モデル(774M)とGPT-2小モデル(124M)と,RecipeDB 5-cuisineコーパス上の従来のLSTM/RNNベースラインとを比較検討した。
キーとなるコントリビューションは、23個の共通分数トークンとカスタム構造マーカーで語彙を拡大するトークン化戦略です。
- 参考スコア(独自算出の注目度): 2.497854684676663
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We established a rigorous benchmark for text-based recipe generation, a fundamental task in natural language generation. We present a comprehensive comparative study contrasting a fine-tuned GPT-2 large (774M) model against the GPT-2 small (124M) model and traditional LSTM/RNN baselines on the 5-cuisine corpus from RecipeDB. Our key contribution is a targeted tokenization strategy that augments the vocabulary with 23 common fraction tokens and custom structural markers. This approach addresses a critical limitation of generic tokenizers by preserving essential recipe structures and precise numerical quantities, thereby enhancing domain specificity. Performance is evaluated using a comprehensive suite of seven automatic metrics spanning fluency (BLEU-4, METEOR), coherence (ROUGE-L), semantic relevance (BERTScore), and diversity. Our experiments show that the large transformer-based approach yields a >20% relative improvement in BERTScore (F1) (0.92 vs 0.72) over the best recurrent baseline, while reducing perplexity by 69.8%. We conclude with a discussion of remaining challenges, particularly regarding factual accuracy, and outline how this foundational study paves the way for integrating real-world constraints and multi-modal inputs in advanced recipe generation research.
- Abstract(参考訳): 我々は、自然言語生成の基本課題であるテキストベースのレシピ生成のための厳密なベンチマークを構築した。
本稿では,GPT-2大モデル(774M)とGPT-2小モデル(124M)を比較し,従来のLSTM/RNNベースラインをRecipeDB 5-cuisineコーパスで比較した。
キーとなるコントリビューションは、23個の共通分数トークンとカスタム構造マーカーで語彙を拡大するトークン化戦略です。
本手法は,本質的なレシピ構造と正確な数値を保存し,ドメイン特異性を高めることにより,ジェネリック・トークンーザの限界に対処する。
性能は、流速(BLEU-4, METEOR)、コヒーレンス(ROUGE-L)、意味的妥当性(BERTScore)、多様性にまたがる7つの自動メトリクスからなる総合的なスイートを用いて評価される。
提案実験により, BERTScore (F1) (0.92 vs 0.72) の相対的な改善が得られたが, パープレキシティは69.8%低減した。
本研究は,レシピ生成研究における現実の制約とマルチモーダルなインプットを統合する方法について,特に事実の正確性に関する課題について論じるとともに,基礎研究がいかにして現実の制約とマルチモーダルなインプットを統合するかについて概説する。
関連論文リスト
- T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning [31.85615810584119]
本稿では,中間的なテキスト構造を構築するためにモデルを誘導するプロンプト技術であるStructure of Thought(SoT)を紹介する。
この知見に基づいて、モデルのテキスト・ツー・ストラクチャ機能の評価と改善を目的とした最初のベンチマークであるT2S-Benchを提案する。
論文 参考訳(メタデータ) (2026-03-04T07:05:09Z) - AI Generated Text Detection [0.0]
本稿では,従来の機械学習モデルとトランスフォーマーベースアーキテクチャの両方を含む,AIテキスト検出手法の評価を行う。
我々は、HC3とDAIGT v2という2つのデータセットを使用して、統一されたベンチマークを構築し、情報漏洩を防止するためにトピックベースのデータ分割を適用する。
その結果、文脈モデリングは語彙的特徴よりもはるかに優れていることが示され、話題記憶の緩和の重要性が強調された。
論文 参考訳(メタデータ) (2026-01-07T11:18:10Z) - Structured Reasoning with Tree-of-Thoughts for Bengali Math Word Problems [0.0]
CoT(Chain-of-Thought)のプロンプトは有望であるが、線形構造はしばしばエラーを伝播する。
本稿では,SOMADHANデータセットを用いたベンガルMWPのツリー・オブ・ソート(ToT)推論の系統的研究について述べる。
論文 参考訳(メタデータ) (2025-12-05T10:07:08Z) - A Reproducible Framework for Neural Topic Modeling in Focus Group Analysis [0.0]
チュニジアの10のフォーカスグループから得られたデータを用いて、BERTopicをグループテキストにフォーカスするための体系的なフレームワークを提案する。
ブートストラップ安定性解析、パフォーマンスメトリクス、LDAベースラインとの比較。
分析の結果,変換器をベースとしたトピックモデリングが,小さな焦点群転写コーパスから解釈可能なテーマを抽出できることが判明した。
論文 参考訳(メタデータ) (2025-11-24T07:30:15Z) - ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge [53.18163869901266]
ESGeniusは、環境・社会・ガバナンス(ESG)における大規模言語モデル(LLM)の熟練度の評価と向上のためのベンチマークである。
ESGeniusはESGenius-QAとESGenius-Corpusの2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-06-02T13:19:09Z) - Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Evaluating the Effectiveness of XAI Techniques for Encoder-Based Language Models [6.349503549199403]
本研究は,人間関係協定(HA),ロバスト性,一貫性,コントラスト性という,4つの主要な指標を用いた一般的な評価枠組みを提案する。
5種類のXAIカテゴリから6つの説明可能性手法の有効性を評価した。
その結果,モデルの単純化に基づくXAI法(LIME)は,複数の指標やモデルに対して一貫して優れていた。
論文 参考訳(メタデータ) (2025-01-26T03:08:34Z) - LuxVeri at GenAI Detection Task 1: Inverse Perplexity Weighted Ensemble for Robust Detection of AI-Generated Text across English and Multilingual Contexts [0.8495482945981923]
本稿では,AI生成コンテンツの検出に関するコリング2025ワークショップのタスク1のために開発されたシステムについて述べる。
提案手法では,各モデルの逆パープレキシティに応じて重みが割り当てられたモデルのアンサンブルを利用して,分類精度を向上させる。
本研究は, 単言語と多言語の両方において, 機械によるテキスト検出の堅牢性を向上させるために, 逆パープレキシティ重み付けの有効性を示すものである。
論文 参考訳(メタデータ) (2025-01-21T06:32:32Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - MetaKP: On-Demand Keyphrase Generation [52.48698290354449]
オンデマンドのキーフレーズ生成は,特定のハイレベルな目標や意図に従うキーフレーズを必要とする新しいパラダイムである。
そこで我々は,4つのデータセット,7500のドキュメント,3760の目標からなる大規模ベンチマークであるMetaKPを紹介した。
ソーシャルメディアからの流行事象検出に応用して,一般のNLP基盤として機能する可能性を示す。
論文 参考訳(メタデータ) (2024-06-28T19:02:59Z) - Markovian Transformers for Informative Language Modeling [1.172865818448696]
CoT(Chain-of-Thought)推論は、しばしば言語モデルの根底にある決定プロセスを忠実に反映しない。
推論オートエンコーダとして理解可能なマルコフ言語モデルフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-29T17:36:58Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Sequencing Matters: A Generate-Retrieve-Generate Model for Building
Conversational Agents [9.191944519634111]
Georgetown InfoSense GroupはTREC iKAT 2023の課題を解決するために活動している。
提案手法は, 各カット数, 総合成功率において, nDCG において高い性能を示した。
我々のソリューションは、初期回答にLarge Language Models (LLMs) を用いること、BM25による回答基盤、ロジスティック回帰による通過品質フィルタリング、LLMによる回答生成である。
論文 参考訳(メタデータ) (2023-11-16T02:37:58Z) - DiversiGATE: A Comprehensive Framework for Reliable Large Language
Models [2.616506436169964]
LLM検証のための多種多様な方法論を統合する統合フレームワークであるDiversiGATEを導入する。
本稿では,DiversiGATEフレームワークに準拠した新たなセルフラーナーモデルを提案する。
提案手法は従来のLLMよりも優れており,GSM8Kベンチマークでは54.8%から61.8%の改善が達成されている。
論文 参考訳(メタデータ) (2023-06-22T22:29:40Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。