論文の概要: Right at My Level: A Unified Multilingual Framework for Proficiency-Aware Text Simplification
- arxiv url: http://arxiv.org/abs/2604.05302v2
- Date: Thu, 16 Apr 2026 02:34:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 16:09:14.113288
- Title: Right at My Level: A Unified Multilingual Framework for Proficiency-Aware Text Simplification
- Title(参考訳): 私の立場では: 習熟度を意識したテキスト単純化のための統一多言語フレームワーク
- Authors: Jinhong Jeong, Junghun Park, Youngjae Yu,
- Abstract要約: 既存の言語モデル(LLM)ベースの可読性制御手法は、事前にラベル付けされた文のコーパスに依存し、主に英語をターゲットにしている。
並列コーパス管理を伴わない適応多言語テキスト簡略化のための統合強化学習フレームワークであるRe-RIGHTを提案する。
- 参考スコア(独自算出の注目度): 21.371851241567626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text simplification supports second language (L2) learning by providing comprehensible input, consistent with the Input Hypothesis. However, constructing personalized parallel corpora is costly, while existing large language model (LLM)-based readability control methods rely on pre-labeled sentence corpora and primarily target English. We propose Re-RIGHT, a unified reinforcement learning framework for adaptive multilingual text simplification without parallel corpus supervision. We first show that prompting-based lexical simplification at target proficiency levels (CEFR, JLPT, TOPIK, and HSK) performs poorly at easier levels and for non-English languages, even with state-of-the-art LLMs such as GPT-5.2 and Gemini 2.5. To address this, we collect 43K vocabulary-level data across four languages (English, Japanese, Korean, and Chinese) and train a compact 4B policy model using Re-RIGHT, which integrates three reward modules: vocabulary coverage, semantic preservation, and coherence. Compared to the stronger LLM baselines, Re-RIGHT achieves higher lexical coverage at target proficiency levels while maintaining original meaning and fluency.
- Abstract(参考訳): テキスト単純化は、入力仮説と整合した理解可能な入力を提供することにより、第二言語(L2)学習をサポートする。
しかし、パーソナライズされた並列コーパスの構築にはコストがかかるが、既存の大規模言語モデル(LLM)ベースの可読性制御手法は事前にラベル付けされた文コーパスに依存しており、主に英語をターゲットにしている。
並列コーパス管理を伴わない適応多言語テキスト簡略化のための統合強化学習フレームワークであるRe-RIGHTを提案する。
まず,GPT-5.2 や Gemini 2.5 のような最先端の LLM であっても,CEFR,JLPT,TOPIK,HSK といった目標習熟度でのアクセシングベース語彙の簡易化は,易易度や非英語言語では不十分であることを示す。
これを解決するために、43Kの語彙レベルデータを4言語(英語、日本語、韓国語、中国語)で収集し、Re-RIGHTを用いてコンパクトな4Bポリシーモデルを訓練する。
より強力なLLMベースラインと比較して、Re-RIGHTは、本来の意味と流布を維持しつつ、目標熟練度において高い語彙カバレッジを達成する。
関連論文リスト
- Bilingual Text-to-Motion Generation: A New Benchmark and Baselines [52.71312720094036]
LLMアノテーションと厳密な手動修正によって構築されたバイリンガルテキスト・モーション・ベンチマークであるBiHumanML3Dを紹介する。
また,CLA(Cross-Lingual Alignment)を用いたバイリンガルモーション拡散合成(BiMD)を提案する。
CLA を用いた BiMD は 0.045 対 0.169 対 R@3 対 80.8% の FID を達成し、単言語拡散モデルと BiHumanML3D の翻訳ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2026-03-26T08:48:27Z) - Lost in Translation, Found in Embeddings: Sign Language Translation and Alignment [84.39962912136525]
我々は手話翻訳(SLT)と手話字幕アライメント(SSA)を実行する手話理解モデルを開発する。
i)人間のキーポイントと唇領域の画像から手動と非手動のキューをキャプチャする軽量な視覚バックボーン,(ii)連続的な視覚特徴を単語レベルの埋め込みに集約するスライディングパーシーバーマッピングネットワーク,(iii)SLTとSSAを協調的に最適化するマルチタスクスケーラブルなトレーニング戦略である。
論文 参考訳(メタデータ) (2025-12-08T21:05:46Z) - RVLF: A Reinforcing Vision-Language Framework for Gloss-Free Sign Language Translation [44.39679803351263]
我々は手話に特化して設計された大規模視覚言語モデル(LVLM)を構築した。
手話の十分な表現のために、RVLFは効果的な意味表現学習機構を導入する。
そして,文レベルの意味的ミスアライメントを改善するために,GRPOに基づく最適化戦略を導入する。
論文 参考訳(メタデータ) (2025-12-08T08:11:53Z) - Classifying German Language Proficiency Levels Using Large Language Models [0.24683296459020942]
本稿では,ドイツ語の文章を異なる習熟度に分類するために,Large Language Models (LLMs) を用いて検討する。
頑健なトレーニングと評価を支援するため,既存のCEFR注釈コーパスを合成データと組み合わせ,多様なデータセットを構築した。
提案手法は従来の手法に比べて一貫した性能向上を示し,信頼性とスケーラブルなCEFR分類のためのLCMの可能性を強調した。
論文 参考訳(メタデータ) (2025-12-06T16:15:45Z) - Code-Switching In-Context Learning for Cross-Lingual Transfer of Large Language Models [64.54005959758733]
我々は,コードスイッチング・イン・コンテキスト・ラーニング(CSICL)を,推論中の翻訳障壁を克服するための原則的かつ堅牢なアプローチとして導入する。
4つのLLM、6つのデータセット、10の言語にわたる広範な実験を行い、知識集約型ドメインと推論指向ドメインの両方にまたがる。
その結果、CSICLはX-ICLベースラインを一貫して上回り、ターゲット言語と見当たらない言語の両方で3.1%pと1.9%pを達成した。
論文 参考訳(メタデータ) (2025-10-07T08:35:42Z) - Aligning Sentence Simplification with ESL Learner's Proficiency for Language Acquisition [11.700462697630696]
本研究は,第2言語学習者の簡易化による英語習得を支援することを目的としている。
本稿では,複雑な文を学習者に適したレベルに単純化すると同時に,目的レベルの語彙的カバレッジを高めることを提案する。
本手法では,トークンレベルの報酬と文レベルの報酬を用いて,目標属性を満たす単純化仮説を探索するために,自己生成出力のモデルを反復的に訓練する。
論文 参考訳(メタデータ) (2025-02-17T05:32:56Z) - Teaching Large Language Models an Unseen Language on the Fly [32.83773919852362]
In-context Learning を用いて LLM を未知の言語に適用するためのフレームワークである DiPMT++ を紹介した。
辞書と5Kパラレル文のみを用いて、DiPMT++は中国語から中国語への翻訳において、0から16BLEUまでのGPT-4の性能を大幅に向上させる。
また、もう1つの目に見えない言語であるKalamang上で、我々のフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2024-02-29T13:50:47Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - On Learning Universal Representations Across Languages [37.555675157198145]
文レベルの表現を学習するための既存のアプローチを拡張し、言語間理解と生成の有効性を示す。
具体的には,複数の言語に分散した並列文の普遍表現を学習するための階層型コントラスト学習(HiCTL)手法を提案する。
我々は、XTREMEと機械翻訳という2つの難解な言語間タスクについて評価を行う。
論文 参考訳(メタデータ) (2020-07-31T10:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。