論文の概要: Prompt-Based Simplification for Plain Language using Spanish Language Models
- arxiv url: http://arxiv.org/abs/2509.17209v1
- Date: Sun, 21 Sep 2025 19:28:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.168588
- Title: Prompt-Based Simplification for Plain Language using Spanish Language Models
- Title(参考訳): スペイン語モデルを用いた平易な言語に対するプロンプトに基づく単純化
- Authors: Lourdes Moreno, Jesus M. Sanchez-Gomez, Marco Antonio Sanchez-Escudero, Paloma Martínez,
- Abstract要約: 本稿では,LearS 2025 Subtask 1: Adaptation of Text to Plain Language (PL) in Spanishについて述べる。
我々は、プロンプトエンジニアリングを用いたゼロショット構成やローランド適応(LoRA)を用いた微調整版など、スペイン語のテキストで訓練されたモデルに基づく戦略を探求した。
最終的なシステムはバランスよく一貫した性能で選択され、正規化ステップ、RigoChat-7B-v2モデル、PL指向のプロンプトが組み合わされた。
- 参考スコア(独自算出の注目度): 0.6299766708197881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes the participation of HULAT-UC3M in CLEARS 2025 Subtask 1: Adaptation of Text to Plain Language (PL) in Spanish. We explored strategies based on models trained on Spanish texts, including a zero-shot configuration using prompt engineering and a fine-tuned version with Low-Rank Adaptation (LoRA). Different strategies were evaluated on representative internal subsets of the training data, using the official task metrics, cosine similarity (SIM) and the Fern\'andez-Huerta readability index (FH) to guide the selection of the optimal model and prompt combination. The final system was selected for its balanced and consistent performance, combining normalization steps, the RigoChat-7B-v2 model, and a dedicated PL-oriented prompt. It ranked first in semantic similarity (SIM = 0.75), however, fourth in readability (FH = 69.72). We also discuss key challenges related to training data heterogeneity and the limitations of current evaluation metrics in capturing both linguistic clarity and content preservation.
- Abstract(参考訳): 本稿では,LearS 2025 Subtask 1: Adaptation of Text to Plain Language (PL) in Spanishについて述べる。
本稿では,プロンプトエンジニアリングを用いたゼロショット構成やローランド適応(LoRA)を用いた微調整バージョンなど,スペイン語のテキストで訓練されたモデルに基づく戦略について検討した。
トレーニングデータの代表的なサブセットに対して,コサイン類似度(SIM)とFern\'andez-Huerta可読性指数(FH)を用いて,最適なモデルの選択と迅速な組み合わせを導出するための異なる戦略を評価した。
最終的なシステムはバランスよく一貫した性能で選択され、正規化ステップ、RigoChat-7B-v2モデル、PL指向のプロンプトが組み合わされた。
第1位は意味的類似性(SIM = 0.75)、第4位は可読性(FH = 69.72)である。
また、言語的明瞭度とコンテンツ保存の両面において、データ不均一性の訓練と現在の評価指標の限界に関する重要な課題についても論じる。
関連論文リスト
- SLRTP2025 Sign Language Production Challenge: Methodology, Results, and Future Work [87.9341538630949]
第1回手話生産チャレンジはCVPR 2025で第3回SLRTPワークショップの一環として開催された。
コンペティションの目的は、音声言語文からスケルトンポーズのシーケンスに変換するアーキテクチャを評価することである。
本稿では,挑戦設計と入賞方法について述べる。
論文 参考訳(メタデータ) (2025-08-09T11:57:33Z) - What Differentiates Educational Literature? A Multimodal Fusion Approach of Transformers and Computational Linguistics [0.7342677574855649]
英語カリキュラムへの新しい文学の統合は、様々な教室のニーズに対して、読みやすさとテキストの適応を迅速に評価するスケーラブルなツールがしばしば欠如しているため、依然として課題である。
本研究は,変圧器を用いたテキスト分類と言語的特徴分析を組み合わせたマルチモーダル手法により,このギャップに対処することを提案する。
提案手法は、ステークホルダーが対象とするWebアプリケーションにカプセル化され、非技術ステークホルダーが、テキストの複雑さ、読みやすさ、カリキュラムのアライメント、学習年齢範囲に関するリアルタイムな洞察にアクセスできるようにする。
論文 参考訳(メタデータ) (2024-11-26T17:01:27Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - OCHADAI at SemEval-2022 Task 2: Adversarial Training for Multilingual
Idiomaticity Detection [4.111899441919165]
文が慣用的表現を含むか否かを判定する多言語逆行訓練モデルを提案する。
我々のモデルは、異なる多言語変換言語モデルからの事前学習された文脈表現に依存している。
論文 参考訳(メタデータ) (2022-06-07T05:52:43Z) - HFL at SemEval-2022 Task 8: A Linguistics-inspired Regression Model with
Data Augmentation for Multilingual News Similarity [16.454545004093735]
本稿では,SemEval-2022 Task 8: Multilingual News Article similarityについて述べる。
我々は,いくつかのタスク固有の戦略で訓練された言語モデルを提案した。
Pearson's correlation Coefficient of 0.818 on the official evaluation set。
論文 参考訳(メタデータ) (2022-04-11T03:08:37Z) - A Variational Hierarchical Model for Neural Cross-Lingual Summarization [85.44969140204026]
言語間の要約(英: cross-lingual summarization)とは、ある言語の文書を別の言語の要約に変換することである。
CLSに関する既存の研究は主にパイプライン手法の利用やエンドツーエンドモデルの共同トレーニングに重点を置いている。
条件付き変分自動エンコーダに基づくCLSタスクの階層モデルを提案する。
論文 参考訳(メタデータ) (2022-03-08T02:46:11Z) - NEMO: Frequentist Inference Approach to Constrained Linguistic Typology
Feature Prediction in SIGTYP 2020 Shared Task [83.43738174234053]
タイプ的特徴間の相関関係を表現するために頻繁な推論を用い、この表現を用いて、個々の特徴を予測する単純なマルチクラス推定器を訓練する。
テスト言語149言語に対して,マイクロ平均精度0.66を達成できた。
論文 参考訳(メタデータ) (2020-10-12T19:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。