論文の概要: PINGALA: Prosody-Aware Decoding for Sanskrit Poetry Generation
- arxiv url: http://arxiv.org/abs/2603.24413v1
- Date: Wed, 25 Mar 2026 15:27:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.360989
- Title: PINGALA: Prosody-Aware Decoding for Sanskrit Poetry Generation
- Title(参考訳): PINGALA:サンスクリット詩生成のための韻律対応デコーディング
- Authors: Manoj Balaji Jagadeeshan, Atul Singh, Nallani Chakravartula Sahith, Amrith Krishna, Pawan Goyal,
- Abstract要約: サンスクリット語での表記は音韻の正書法に従っているため、音素的に認識される音素変換スキーム SLP1 を用いることで、韻律のアライメントは46%増加し、同じ意味的類似性を持つ。
我々は,真の詩のインスタンスとの整合性を向上するクロスエンコーダを用いた参照不要評価のための新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 5.209524295955609
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Poetry generation in Sanskrit typically requires the verse to be semantically coherent and adhere to strict prosodic rules. In Sanskrit prosody, every line of a verse is typically a fixed length sequence of syllables adhering to prescribed binary patterns of syllable weights. We observe that instead of treating a verse as a monolithic sequence, segmenting them as grouped-lines leads to significant improvement in semantic coherence by 10\% with comparable metrical adherence. Specifically, PINGALA, our proposed decoding approach is designed to encourage every line to have well-formed words and our token selection biases the model towards it by preferring longer tokens. Writing in Sanskrit follows phonemic orthography, hence using a phonetically aware transliteration scheme, SLP1, increased the metrical alignment by 46\% with comparable semantic similarity, for a instruction fine-tuned large language models like Phi-4. We also introduce a new approach for reference-free evaluation using cross-encoders which achieved better alignment with true poetry instances.
- Abstract(参考訳): サンスクリットの詩生成は通常、詩は意味的に一貫性を持ち、厳密な韻律規則に従わなければならない。
サンスクリットの韻律では、詩のすべての行は典型的には、所定の二分音節の重みのパターンに固執する音節の固定長列である。
節をモノリシックなシーケンスとして扱う代わりに、それらをグループ化されたラインとしてセグメント化することで、比較した計量的従順性によって、セマンティックコヒーレンスを10\%向上させることが観察された。
具体的には,提案する復号化手法は,全ての行に対して良好な文体を持つように促すことを目的としており,トークン選択はより長いトークンを優先してモデルに偏りを生じさせる。
サンスクリット語での表記は音韻正書法に従っているため、Phi-4のような命令の微調整された大言語モデルに対して、音素的に認識された文字化スキーム SLP1 を用いて、メートル法的なアライメントを46\%増加させる。
また,クロスエンコーダを用いた参照不要評価のための新しいアプローチを導入し,真の詩のインスタンスとの整合性を向上した。
関連論文リスト
- Tokens with Meaning: A Hybrid Tokenization Approach for NLP [0.2826977330147589]
自然言語処理(NLP)におけるトークン化の役割
規則に基づく形態素解析と統計的サブワードセグメンテーションを組み合わせたハイブリッドトークン化フレームワークを提案する。
本手法は, 音韻正規化, ルートアフィックス, および形態素保存と語彙効率のバランスをとる新しいアルゴリズムを用いる。
論文 参考訳(メタデータ) (2025-08-19T22:17:42Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - From Plain Text to Poetic Form: Generating Metrically-Constrained Sanskrit Verses [22.08984009109879]
我々は、英語の散文を構造化サンスクリット詩に翻訳するためのデータセットを提案する。
我々は,距離や意味の忠実度に合わせた制約付き復号法と命令ベースの微調整について検討する。
論文 参考訳(メタデータ) (2025-06-01T03:35:46Z) - Online Writer Retrieval with Chinese Handwritten Phrases: A Synergistic Temporal-Frequency Representation Learning Approach [53.189911918976655]
DOLPHINは,相乗的時間周波数解析による手書き表現の向上を目的とした新しい検索モデルである。
OLIWER(OLIWER)は,1,731人から670,000以上の中国語の字句を含む大規模オンライン作家検索データセットである。
本研究は,手書き表現の質向上における点サンプリング周波数と圧力特性の重要性を強調した。
論文 参考訳(メタデータ) (2024-12-16T11:19:22Z) - How Transliterations Improve Crosslingual Alignment [48.929677368744606]
近年の研究では、アライメント目的を用いた多言語事前学習言語モデル(mPLM)が言語横断アライメントを改善することが示されている。
本稿では, 言語間のアライメントを明示的に評価し, 翻訳に基づくアプローチにおける重要な要素を同定し, 性能向上に寄与する。
論文 参考訳(メタデータ) (2024-09-25T20:05:45Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - GPT Czech Poet: Generation of Czech Poetic Strophes with Language Models [0.4444634303550442]
チェコ語で詩を生成するための新しいモデルを提案する。
詩文中のストロフェパラメータを明示的に指定することで生成プロセスの指導がモデルの有効性を強く向上することを示す。
論文 参考訳(メタデータ) (2024-06-18T06:19:45Z) - Metronome: tracing variation in poetic meters via local sequence alignment [0.18749305679160366]
本稿では,局所配列アライメントを用いて詩の構造的類似性を検出する教師なし手法を提案する。
この方法は詩のテキストを4文字のアルファベットを使って韻律的な特徴の文字列として符号化することに依存している。
これらの列は、重み付きシンボル(ミス)マッチングに基づいて距離測度を導出するように整列される。
論文 参考訳(メタデータ) (2024-04-26T11:37:45Z) - On Parsing as Tagging [66.31276017088477]
そこで我々は,現在最先端の選挙区タグであるテトラタグを減らして,シフト-リデュース解析を行う方法を示す。
我々は、線形化器、学習者、復号器の異なる選択でタグ付けパイプラインの分類を実証的に評価する。
論文 参考訳(メタデータ) (2022-11-14T13:37:07Z) - CCPM: A Chinese Classical Poetry Matching Dataset [50.90794811956129]
本稿では,詩のマッチングによるモデルの意味的理解を評価するための新しい課題を提案する。
この課題は、現代漢訳の漢詩では、4人の候補者の中から1行の漢詩を選ばなければならない。
このデータセットを構築するために、まず中国古典詩と現代中国語の翻訳の並列データを得る。
論文 参考訳(メタデータ) (2021-06-03T16:49:03Z) - Revisiting Neural Language Modelling with Syllables [3.198144010381572]
我々は20言語でオープン語彙生成タスクのために音節を再考する。
ルールベースのシラビフィケーション手法を5つの言語で使用し,残りをハイフン化ツールで処理する。
同等の難易度で、音節は文字、注釈付き形態素、教師なしのサブワードよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。