論文の概要: Simplify-This: A Comparative Analysis of Prompt-Based and Fine-Tuned LLMs
- arxiv url: http://arxiv.org/abs/2601.05794v1
- Date: Fri, 09 Jan 2026 13:46:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.979207
- Title: Simplify-This: A Comparative Analysis of Prompt-Based and Fine-Tuned LLMs
- Title(参考訳): Simplify-This: Prompt-based および Fine-Tuned LLM の比較分析
- Authors: Eilam Cohen, Itamar Bul, Danielle Inbar, Omri Loewenbach,
- Abstract要約: 大規模言語モデル(LLM)は強力なテキスト生成を可能にし、一般的には微調整と迅速なエンジニアリングのトレードオフがある。
本稿では,エンコーダ-デコーダ LLM を用いたテキスト単純化のパラダイムを比較検討する Simplify-This を紹介する。
微調整されたモデルは、常により強い構造的単純化をもたらすが、プロンプトはしばしば高い意味的類似度スコアを得るが、入力をコピーする傾向がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) enable strong text generation, and in general there is a practical tradeoff between fine-tuning and prompt engineering. We introduce Simplify-This, a comparative study evaluating both paradigms for text simplification with encoder-decoder LLMs across multiple benchmarks, using a range of evaluation metrics. Fine-tuned models consistently deliver stronger structural simplification, whereas prompting often attains higher semantic similarity scores yet tends to copy inputs. A human evaluation favors fine-tuned outputs overall. We release code, a cleaned derivative dataset used in our study, checkpoints of fine-tuned models, and prompt templates to facilitate reproducibility and future work.
- Abstract(参考訳): 大規模言語モデル(LLM)は強力なテキスト生成を可能にし、一般的には微調整と迅速なエンジニアリングのトレードオフがある。
Simplify-Thisは,複数のベンチマークにまたがるエンコーダ・デコーダ LLM によるテキスト単純化のパラダイムを,様々な評価指標を用いて比較検討した。
微調整されたモデルは、常により強い構造的単純化をもたらすが、プロンプトはしばしば高い意味的類似度スコアを得るが、入力をコピーする傾向がある。
人間の評価は全体として微調整された出力を好む。
私たちの研究で使われているクリーンなデリバティブデータセットであるコードをリリースし、微調整されたモデルのチェックポイントを作成し、再現性と今後の作業を容易にするためにテンプレートをプロンプトします。
関連論文リスト
- Negative Matters: Multi-Granularity Hard-Negative Synthesis and Anchor-Token-Aware Pooling for Enhanced Text Embeddings [25.565372681837697]
クエリに類似するレベルが異なる多様な負のサンプルを生成するために,マルチグラニュラリティ・ハード負(MGH)合成フレームワークを導入する。
また,Anchor Token Aware(ATA)プーリング手法を提案する。
論文 参考訳(メタデータ) (2025-08-31T13:24:48Z) - Re-Evaluating Code LLM Benchmarks Under Semantic Mutation [8.58692613099365]
本稿では,コードベンチマークの迅速感度を調査するための実証的研究について述べる。
本稿では,プロンプトテンプレートのセマンティクスと構造を両立させる手法として,プロンプトテンプレートを改良する汎用フレームワークを提案する。
この結果から, 急激な変化であっても, 性能が著しく変化することが示唆された。
論文 参考訳(メタデータ) (2025-06-20T15:30:36Z) - Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。
我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。
実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-02-19T15:32:11Z) - A Better LLM Evaluator for Text Generation: The Impact of Prompt Output Sequencing and Optimization [17.38671584773247]
本研究では,大規模言語モデル(LLM)を用いたテキスト評価の迅速設計について検討する。
結果,理由と得点の順序がLLMの得点に大きく影響していることが判明した。
追加の最適化は、十分なデータが利用可能であればアライメントアライメントを強化する可能性がある。
論文 参考訳(メタデータ) (2024-06-14T12:31:44Z) - SemScore: Automated Evaluation of Instruction-Tuned LLMs based on
Semantic Textual Similarity [3.3162484539136416]
本稿では,SemScoreと呼ばれる簡易な評価尺度を提案する。
意味的テキスト類似度(STS)を用いたモデル出力とゴールドターゲット応答の比較
提案したSemScore測定基準は,人間の評価と相関する点において,より複雑な評価指標よりも優れていることが判明した。
論文 参考訳(メタデータ) (2024-01-30T14:52:50Z) - Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting [68.19544657508509]
言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。
いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。
本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
論文 参考訳(メタデータ) (2023-10-17T15:03:30Z) - MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text
Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。
WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2022-12-16T17:36:23Z) - Classifiers are Better Experts for Controllable Text Generation [63.17266060165098]
提案手法は, PPLにおける最近のPPLM, GeDi, DExpertsよりも有意に優れており, 生成したテキストの外部分類器に基づく感情の精度が高いことを示す。
同時に、実装やチューニングも簡単で、制限や要件も大幅に少なくなります。
論文 参考訳(メタデータ) (2022-05-15T12:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。