論文の概要: Sanskrit Segmentation Revisited
- arxiv url: http://arxiv.org/abs/2005.06383v1
- Date: Wed, 13 May 2020 15:50:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 13:08:01.558884
- Title: Sanskrit Segmentation Revisited
- Title(参考訳): サンスクリットセグメンテーションを再考
- Authors: Sriram Krishnan and Amba Kulkarni
- Abstract要約: G'erard Huet's Reader in the Sanskrit Heritage Engineは入力テキストを分析し、単語パラメータに基づいてセグメント化する。
本稿では, 位相の詳細を無視して, 上記のセグメンタの修正を試みるとともに, 解のリストの優先順位付けを行う確率関数を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computationally analyzing Sanskrit texts requires proper segmentation in the
initial stages. There have been various tools developed for Sanskrit text
segmentation. Of these, G\'erard Huet's Reader in the Sanskrit Heritage Engine
analyzes the input text and segments it based on the word parameters - phases
like iic, ifc, Pr, Subst, etc., and sandhi (or transition) that takes place at
the end of a word with the initial part of the next word. And it enlists all
the possible solutions differentiating them with the help of the phases. The
phases and their analyses have their use in the domain of sentential parsers.
In segmentation, though, they are not used beyond deciding whether the words
formed with the phases are morphologically valid. This paper tries to modify
the above segmenter by ignoring the phase details (except for a few cases), and
also proposes a probability function to prioritize the list of solutions to
bring up the most valid solutions at the top.
- Abstract(参考訳): サンスクリットのテキストを計算解析するには、初期段階で適切なセグメンテーションが必要である。
サンスクリット語テキストセグメンテーションのための様々なツールが開発されている。
これらのうち、G\'erard Huet's Reader in the Sanskrit Heritage Engine(英語版)は入力テキストを分析し、単語パラメーター(iic、ifc、Pr、Substなどのようなフェーズ)と、単語の最初の部分で単語の最後に起こるサンジー(または遷移)のような単語パラメーターに基づいてセグメント化する。
そして、フェーズの助けを借りて、可能なすべてのソリューションを識別します。
フェーズとその分析は、センデンシャルパーサーの領域で使用される。
しかしセグメンテーションでは、これらは相で形成された単語が形態的に有効かどうかを判断する以外には使われない。
本稿では,(いくつかの場合を除いて)位相詳細を無視して,上記のセグメンタの修正を試みるとともに,最上位の有効な解を導出するための解のリストを優先する確率関数を提案する。
関連論文リスト
- LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Segment and Caption Anything [126.20201216616137]
本稿では,地域キャプションを生成する機能を備えたセグメンション・アプライシング・モデルを提案する。
軽量なクエリベースの機能ミキサーを導入することで、地域固有の特徴と、後続キャプション生成のための言語モデルの埋め込み空間を整合させる。
提案手法の優位性を実証し,それぞれの設計選択を検証するために,広範な実験を行う。
論文 参考訳(メタデータ) (2023-12-01T19:00:17Z) - Word segmentation granularity in Korean [1.0619039878979954]
韓国語では、単語のセグメンテーションの粒度には複数のレベルがある。
特定の言語処理やコーパスアノテーションタスクでは、いくつかの異なる粒度レベルが提案され、利用されている。
興味深いことに、機能的形態素のみを分離した粒度は、句構造解析の最適性能をもたらす。
論文 参考訳(メタデータ) (2023-09-07T13:42:05Z) - Where's the Point? Self-Supervised Multilingual Punctuation-Agnostic
Sentence Segmentation [65.6736056006381]
85言語を対象とした多言語句読解文セグメンテーション法を提案する。
提案手法は,従来の最良文分割ツールを平均6.1%F1ポイントで上回っている。
MTモデルの訓練に使用するセグメンテーションと文のセグメンテーションを一致させる手法を用いて,平均2.3BLEU点の改善を実現する。
論文 参考訳(メタデータ) (2023-05-30T09:49:42Z) - Subword Segmental Machine Translation: Unifying Segmentation and Target
Sentence Generation [7.252933737829635]
サブワードセグメント機械翻訳(SSMT)は、目標文を生成するために共同学習しながら、ターゲット文をセグメント化することを学ぶ。
6つの翻訳方向にわたる実験により、SSMTは形態学的にリッチな凝集言語に対するchrFスコアを改善することが示された。
論文 参考訳(メタデータ) (2023-05-11T17:44:29Z) - On Parsing as Tagging [66.31276017088477]
そこで我々は,現在最先端の選挙区タグであるテトラタグを減らして,シフト-リデュース解析を行う方法を示す。
我々は、線形化器、学習者、復号器の異なる選択でタグ付けパイプラインの分類を実証的に評価する。
論文 参考訳(メタデータ) (2022-11-14T13:37:07Z) - TransLIST: A Transformer-Based Linguistically Informed Sanskrit
Tokenizer [11.608920658638976]
サンスクリットワードアルゴリズム(SWS)は、デジタル化されたテキストを利用できるようにし、下流のタスクをデプロイするのに不可欠である。
我々はTransLIST(Transformer based Linguistically Informed Sanskrit Tokenizer)を提案する。
TransLISTは、SWS特有のサンディー現象を考慮した潜在単語情報と共に文字入力を符号化する。
論文 参考訳(メタデータ) (2022-10-21T06:15:40Z) - Augmenting Part-of-speech Tagging with Syntactic Information for
Vietnamese and Chinese [0.32228025627337864]
我々は,ベトナム語の単語分割と音声タグ付けの一部を,簡易な選挙区を用いて改善するという考え方を実装した。
共同語分割とパート・オブ・音声タギングのためのニューラルモデルは,音節に基づく構成のアーキテクチャを持つ。
このモデルは、予測された単語境界と、他のツールによる音声タグで拡張することができる。
論文 参考訳(メタデータ) (2021-02-24T08:57:02Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。