Fugu-MT 論文翻訳(概要): A Context-Contrastive Inference Approach To Partial Diacritization

論文の概要: A Context-Contrastive Inference Approach To Partial Diacritization

arxiv url: http://arxiv.org/abs/2401.08919v3
Date: Fri, 9 Aug 2024 13:49:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-12 20:40:55.643536
Title: A Context-Contrastive Inference Approach To Partial Diacritization
Title（参考訳）: 部分的発音に対する文脈コントラスト推論手法
Authors: Muhammad ElNokrashy, Badr AlKhamissi,
Abstract要約: ダイアクリプティゼーションは、読みやすさを改善し、アラビア語のテキストの意味を曖昧にする上で重要な役割を担っている。 partial Diacritzation (PD) は、必要に応じて理解を助けるためにマークされる文字のサブセットの選択である。我々は,既存のアラビア語発音システムとシームレスに統合されたPDの新しいアプローチである,文脈コントラスト部分発音システム(CCPD)を紹介する。
参考スコア（独自算出の注目度）: 0.5575959989491791
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diacritization plays a pivotal role in improving readability and disambiguating the meaning of Arabic texts. Efforts have so far focused on marking every eligible character (Full Diacritization). Comparatively overlooked, Partial Diacritzation (PD) is the selection of a subset of characters to be marked to aid comprehension where needed. Research has indicated that excessive diacritic marks can hinder skilled readers -- reducing reading speed and accuracy. We conduct a behavioral experiment and show that partially marked text is often easier to read than fully marked text, and sometimes easier than plain text. In this light, we introduce Context-Contrastive Partial Diacritization (CCPD) -- a novel approach to PD which integrates seamlessly with existing Arabic diacritization systems. CCPD processes each word twice, once with context and once without, and diacritizes only the characters with disparities between the two inferences. Further, we introduce novel indicators for measuring partial diacritization quality, essential for establishing this as a machine learning task. Lastly, we introduce TD2, a Transformer-variant of an established model which offers a markedly different performance profile on our proposed indicators compared to all other known systems.
Abstract（参考訳）: ダイアクリプティゼーションは、読みやすさを改善し、アラビア語のテキストの意味を曖昧にする上で重要な役割を担っている。これまでの努力は、すべての適格な文字(完全な発音)をマークすることに集中してきた。比較的に見落とされ、部分弁別(PD)は、必要に応じて理解を助けるためにマークされる文字のサブセットの選択である。研究によると、過剰なダイアクリティカルマークは、熟練した読者を妨げる可能性がある。動作実験を行い、部分的にマークされたテキストは、完全にマークされたテキストよりも読みやすく、時には平文よりも読みやすいことを示す。本稿では,既存のアラビア語発音システムとシームレスに統合されたPDの新しいアプローチである,文脈コントラスト部分発音システム(CCPD)を紹介する。 CCPDは各単語を2回、文脈で1回、無関係で1回処理し、2つの推論の相違点を持つ文字のみを分類する。さらに,これを機械学習タスクとして確立するために必要となる,部分的発音品質を測定するための新しい指標についても紹介する。最後に、確立されたモデルのトランスフォーマー版であるTD2を紹介し、提案した指標に対して、他の既知のシステムと比較して明らかに異なる性能プロファイルを提供する。

関連論文リスト

Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文参考訳（メタデータ） (2025-08-24T15:45:22Z)
Context-Adaptive Multi-Prompt Embedding with Large Language Models for Vision-Language Alignment [33.152772648399846]
本稿では,視覚言語によるコントラスト学習における意味表現を豊かにするための新しい手法を提案する。プリトレーニング済みのLLMをCLIPフレームワーク内のテキストエンコーダとして利用し、すべてのプロンプトを1つのフォワードパスで共同処理します。結果として得られる即時埋め込みは統一されたテキスト表現に統合され、視覚的特徴とのセマンティックにリッチなアライメントを可能にする。
論文参考訳（メタデータ） (2025-08-03T20:48:43Z)
PLATTER: A Page-Level Handwritten Text Recognition System for Indic Scripts [20.394597266150534]
我々はPage-Level hAndwriTTen TExt Recognition(PLATTER)のエンドツーエンドフレームワークを提案する。第2に,言語に依存しないHTDモデルの性能測定にPLATTERを用いることを実証する。最後に、厳密にキュレートされたページレベルのインデックス手書きOCRデータセットである、手書きのIndic Scripts (CHIPS) のコーパスをリリースする。
論文参考訳（メタデータ） (2025-02-10T05:50:26Z)
Online Writer Retrieval with Chinese Handwritten Phrases: A Synergistic Temporal-Frequency Representation Learning Approach [53.189911918976655]
DOLPHINは,相乗的時間周波数解析による手書き表現の向上を目的とした新しい検索モデルである。 OLIWER(OLIWER)は,1,731人から670,000以上の中国語の字句を含む大規模オンライン作家検索データセットである。本研究は,手書き表現の質向上における点サンプリング周波数と圧力特性の重要性を強調した。
論文参考訳（メタデータ） (2024-12-16T11:19:22Z)
Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文参考訳（メタデータ） (2024-10-16T09:42:29Z)
Grammar Induction from Visual, Speech and Text [91.98797120799227]
本研究は、新しい視覚音声テキスト文法誘導タスク(textbfVAT-GI)を導入する。言語文法がテキストを超えて存在するという事実に触発されて、テキストは文法帰納において支配的なモダリティであってはならないと論じる。そこで本稿では,豊富なモーダル特化機能と補完機能を有効文法解析に活用した,ビジュアル・オーディオ・テキスト・インサイド・アウトサイド・オートエンコーダ(textbfVaTiora)フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-01T02:24:18Z)
PLOT: Text-based Person Search with Part Slot Attention for Corresponding Part Discovery [29.301950609839796]
本稿では、スロットアテンションに基づく部分発見モジュールを活用して、特徴部分を自律的に識別し、モダリティ間で整合させる新しいフレームワークを提案する。提案手法は3つの公開ベンチマークで評価され,既存手法よりも優れていた。
論文参考訳（メタデータ） (2024-09-20T13:05:55Z)
Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。 DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-05-30T07:25:23Z)
Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。 PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文参考訳（メタデータ） (2024-05-21T11:22:27Z)
Generating Summaries with Controllable Readability Levels [67.34087272813821]
テキストの複雑さ、主題、読者の背景知識など、可読性レベルに影響を与える要因がいくつかある。現在のテキスト生成アプローチでは制御が洗練されておらず、結果として読者の習熟度にカスタマイズされないテキストが作られる。可読性を制御するための3つのテキスト生成手法を開発した。命令ベースの可読性制御,要求される可読性と観測される可読性の間のギャップを最小限に抑える強化学習,および,ルックアヘッドを用いて今後の復号化ステップの可読性を評価する復号手法である。
論文参考訳（メタデータ） (2023-10-16T17:46:26Z)
Take the Hint: Improving Arabic Diacritization with Partially-Diacritized Text [4.863310073296471]
本稿では,任意のダイアクリティカルティクスを効果的にサポートするマルチソースモデルである2SDiacを提案する。また、ランダムマスキングのレベルが異なる入力において、与えられたダイアクリティカルを活用できるトレーニングスキームであるガイドドラーニングを導入する。
論文参考訳（メタデータ） (2023-06-06T10:18:17Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
Improving Scene Text Recognition for Character-Level Long-Tailed Distribution [35.14058653707104]
本稿では,2つの専門家を用いた新しい文脈認識フリーエキスパートネットワーク(CAFE-Net)を提案する。 CAFE-Netは多数の文字を含む言語でのSTR性能を改善する。
論文参考訳（メタデータ） (2023-03-31T06:11:33Z)
Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer [21.479222207347238]
テキストスポッティングのための変換器ベースのアプローチであるTextTranSpotter(TTS)を紹介する。 TTSは、完全に管理された設定と弱い設定の両方で訓練される。 TextTranSpotterは、完全に教師された方法でトレーニングされ、複数のベンチマークで最先端の結果を表示する。
論文参考訳（メタデータ） (2022-02-11T08:50:09Z)
Text is Text, No Matter What: Unifying Text Recognition using Knowledge Distillation [41.43280922432707]
私たちは、2つの最先端のSTRモデルとHTRモデルと好適に競合できる単一のモデルを目指しています。まず、STRモデルとHTRモデルの相互利用が、それらの固有の課題の違いにより、大幅な性能低下を引き起こすことを示す。次に、知識蒸留(KD)に基づく枠組みを導入することで、彼らの連合に取り組みます。
論文参考訳（メタデータ） (2021-07-26T10:10:34Z)
A Novel Attention-based Aggregation Function to Combine Vision and Language [55.7633883960205]
本稿では,視覚と言語のための新しい完全適応型還元法を提案する。具体的には,各モータリティの各要素のスコアの集合を,クロスアテンションの新たな変種を用いて計算する。我々は、画像テキストマッチングと視覚的質問応答のアプローチを試行し、他の縮小選択と公正な比較を構築した。
論文参考訳（メタデータ） (2020-04-27T18:09:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。