論文の概要: Still Not There: Can LLMs Outperform Smaller Task-Specific Seq2Seq Models on the Poetry-to-Prose Conversion Task?
- arxiv url: http://arxiv.org/abs/2511.08145v1
- Date: Wed, 12 Nov 2025 01:42:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.665889
- Title: Still Not There: Can LLMs Outperform Smaller Task-Specific Seq2Seq Models on the Poetry-to-Prose Conversion Task?
- Title(参考訳): いまだに存在しない: LLM はより小型のタスク特化Seq2Seq モデルを Poetry-to-Prose 変換タスクで実行できるか?
- Authors: Kunal Kingkar Das, Manoj Balaji Jagadeeshan, Nallani Chakravartula Sahith, Jivnesh Sandhan, Pawan Goyal,
- Abstract要約: 大規模言語モデル(LLM)は、NLPタスクにまたがる普遍的で汎用的なソリューションとして扱われることが多い。
しかし、この仮定はサンスクリットのような低リソースで形態的にリッチな言語に対して成り立つだろうか?
我々は,サンスクリットの詩文から散文への変換タスクにおいて,命令調整型およびテキスト内プロンプト型LLMと,タスク固有のエンコーダ・デコーダモデルとの比較を行った。
- 参考スコア(独自算出の注目度): 4.048676271737789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly treated as universal, general-purpose solutions across NLP tasks, particularly in English. But does this assumption hold for low-resource, morphologically rich languages such as Sanskrit? We address this question by comparing instruction-tuned and in-context-prompted LLMs with smaller task-specific encoder-decoder models on the Sanskrit poetry-to-prose conversion task. This task is intrinsically challenging: Sanskrit verse exhibits free word order combined with rigid metrical constraints, and its conversion to canonical prose (anvaya) requires multi-step reasoning involving compound segmentation, dependency resolution, and syntactic linearisation. This makes it an ideal testbed to evaluate whether LLMs can surpass specialised models. For LLMs, we apply instruction fine-tuning on general-purpose models and design in-context learning templates grounded in Paninian grammar and classical commentary heuristics. For task-specific modelling, we fully fine-tune a ByT5-Sanskrit Seq2Seq model. Our experiments show that domain-specific fine-tuning of ByT5-Sanskrit significantly outperforms all instruction-driven LLM approaches. Human evaluation strongly corroborates this result, with scores exhibiting high correlation with Kendall's Tau scores. Additionally, our prompting strategies provide an alternative to fine-tuning when domain-specific verse corpora are unavailable, and the task-specific Seq2Seq model demonstrates robust generalisation on out-of-domain evaluations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に英語において、NLPタスク全体にわたって普遍的で汎用的なソリューションとして扱われることが多い。
しかし、この仮定はサンスクリットのような低リソースで形態的にリッチな言語に対して成り立つだろうか?
そこで本研究では,サンスクリットの詩文から散文への変換タスクにおいて,命令調整されたLLMとタスク固有のエンコーダ・デコーダ・モデルとの比較を行った。
サンスクリット詩は厳密な計量的制約と組み合わされた自由語順を示し、その標準散文(アヴァヤ)への変換には、複合セグメンテーション、依存性分解、構文線形化を含む多段階の推論が必要である。
これにより、LLMが特殊化モデルを超えることができるかどうかを評価するのに理想的なテストベッドとなる。
LLMに対して、汎用モデルに命令微調整を適用し、パニアン文法と古典的注釈ヒューリスティックスに基づくコンテキスト内学習テンプレートを設計する。
タスク固有のモデリングでは、ByT5-Sanskrit Seq2Seqモデルを完全に微調整する。
実験の結果、ByT5-Sanskritのドメイン固有の微調整は、命令駆動LLMのアプローチよりも大幅に優れていることがわかった。
人間の評価は、ケンドールのタウスコアと高い相関を示すスコアとともに、この結果を強く裏付ける。
さらに,提案手法は,ドメイン固有逆コーパスが利用できない場合の微調整の代替手段となり,タスク固有Seq2Seqモデルはドメイン外評価に頑健な一般化を示す。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Randomly Sampled Language Reasoning Problems Elucidate Limitations of In-Context Learning [9.75748930802634]
機械学習の性能を向上させるために,テキスト内学習の能力について検討する。
非常に単純なドメインを考える: 単純な言語タスクにおける次のトークン予測。
この課題において LLM は n-gram モデルに一様に劣ることがわかった。
論文 参考訳(メタデータ) (2025-01-06T07:57:51Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning [55.265138447400744]
ステートメントチューニングは、有限文の集合として識別タスクをモデル化し、エンコーダモデルを訓練し、潜在的なステートメントを識別してラベルを決定するテクニックである。
その結果, ステートメント・チューニングは, パラメータが著しく少ない最先端のLCMと比較して, 競争性能が向上することを示した。
この研究は、いくつかの設計選択が少ショットとゼロショットの一般化に与える影響を調査し、ステートメントチューニングが控えめなトレーニングデータで高いパフォーマンスを達成できることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T14:05:03Z) - Can LLMs perform structured graph reasoning? [4.676784872259775]
LLM(Pretrained Large Language Models)は、言語ベースのプロンプトだけで様々な推論能力を示す。
本稿では,半構造化タスクのプロキシとして,様々なグラフ推論タスクを設計する。
上記の課題に対して,5種類のインストラクト微細化LDM (GPT-4, GPT-3.5, Claude-2, Llama-2, Palm-2) をベンチマークした。
論文 参考訳(メタデータ) (2024-02-02T09:45:33Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - In-context Learning Generalizes, But Not Always Robustly: The Case of Syntax [36.98247762224868]
In-context Learning (ICL)は、現在、大規模言語モデル(LLM)の新しいタスクを教える一般的な方法である。
モデルは、文脈によって定義されたタスクの基盤構造を推論するか、あるいは、同じ分散例にのみ一般化する表面一般化に依存するか?
GPT, PaLM, および Llama 2 ファミリーのモデルを用いた実験では, LM 間で大きなばらつきが認められた。
この分散は、モデルサイズよりも事前学習コーパスと監督方法の構成によりより説明される。
論文 参考訳(メタデータ) (2023-11-13T23:52:43Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Coupling Large Language Models with Logic Programming for Robust and
General Reasoning from Text [5.532477732693001]
大規模言語モデルは, 意味論的に非常に効果的な数ショットとして機能することを示す。
自然言語文を論理形式に変換し、応答集合プログラムの入力として機能する。
本手法は,bAbI, StepGame, CLUTRR, gSCAN など,いくつかのベンチマークにおいて最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-15T03:29:59Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。